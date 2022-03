ಅಂತರ್ಜಾಲದಲ್ಲಿ ಇನ್ನೊಬ್ಬರ ಪೋಸ್ಟಿನ ತಪ್ಪುಗಳನ್ನು ತಿದ್ದುವುದರಷ್ಟು ಖುಷಿ ಕೊಡುವ ಸಂಗತಿಗಳು ಹೆಚ್ಚಿಲ್ಲ ಅನ್ನಬೇಕು. ಹಾಗಾಗಿಯೇ ಚತುರಮತಿಯೊಬ್ಬರು, ‘I hope you appreciate the effort I put into not correcting your grammar’ ಅಂತ ಹೇಳಿದ್ದಾರೆ! ಈಗಂತೂ ನೀವು ‘ನಾನೊಬ್ಬ ಗೆದ್ದ’ ಅಂತ ಟೈಪಿಸಿದರೆ ಗೂಗಲ್ಲು ಕೂಡ ‘Did you mean: ನಾನೊಬ್ಬ ಪೆದ್ದ’ ಅಂತ ಕೇಳಿ ಹಲ್ಲು ಕಿರಿಯುತ್ತದೆ. ನಮ್ಮ ಕಾಗುಣಿತ ತಿದ್ದುವಷ್ಟು ಜಾಣ್ಮೆ ಗೂಗಲ್ಲಿಗೆ ಎಲ್ಲಿಂದ ಬರುತ್ತದೆ ಅನ್ನುವುದು ಕೌತುಕದ ವಿಷಯ.

ಪದಕೋಶವನ್ನು ನೋಡಿದರೆ ಗೂಗಲ್ಲಿಗೆ ತಪ್ಪಾಗಿ ಟೈಪಿಸಲ್ಪಟ್ಟ ಪದದ ಕಾಗುಣಿತ ಗೊತ್ತಾಗುವುದಿಲ್ಲವೇ ಎಂದು ಯಾರಾದರೂ ಕೇಳಬಹುದು. ಅದಾಗುವುದಿಲ್ಲ. ಆ್ಯಪಲ್ ಅಂತಂದರೆ ಒಂದು ಹಣ್ಣೋ, ಒಂದು ಕಂಪೆನಿಯೋ ಅಂತ ಹೇಳುವುದಕ್ಕೆ ನಿಘಂಟುವಿನ ಜ್ಞಾನ ಸಾಕಾಗುವುದಿಲ್ಲ. ‘ರನ್ನ’ ಅಂತ ಟೈಪು ಮಾಡಿದವರು ಕವಿ ರನ್ನನ ಅಭಿಮಾನಿಯೋ, ಸುದೀಪ್ ನಟಿಸಿದ ಚಿತ್ರವೊಂದರ ವಿವರ ತಿಳಿಯಹೊರಟವರೋ ಇದ್ದಾರು. ಈಗೊಬ್ಬರು ‘ಕಮಾಲ’ ಅಂತ ತಪ್ಪಾಗಿ ಟೈಪು ಮಾಡಿದರು ಅಂತಿಟ್ಟುಕೊಳ್ಳೋಣ. ಕಮಲ, ಕಮರು, ಕಮಟು, ಕಮಾನು, ಕಮಾಯಿ, ಕಮಾಲು – ಇವುಗಳಲ್ಲಿ ಯಾವುದಾದರೂ ಟೈಪು ಮಾಡಿದವರ ಮನಸ್ಸಿನಲ್ಲಿದ್ದಿರಬಹುದು. ಅವರು ನಿಜವಾಗಿಯೂ ಟೈಪು ಮಾಡಬಯಸಿದ್ದು ಏನನ್ನು ಅಂತ ಗೂಗಲ್ಲಿಗೆ ಹೇಗೆ ಗೊತ್ತಾಗಬೇಕು?

ಇಂಥದ್ದೇ ಸಂದರ್ಭಗಳು ಗ್ರಂಥಸಂಪಾದನೆ ಮಾಡುವ ವಿದ್ವಾಂಸರಿಗೂ ಬಂದಾಗ ಅವರೇನು ಮಾಡುತ್ತಿದ್ದರು ಎಂದು ತಲೆಗೆ ತಂದುಕೊಳ್ಳಬಹುದು. ಈಗ ಹತ್ತನೆಯ ಶತಮಾನದ ಕಾವ್ಯವೊಂದು ತಾಳೆಗರಿಯೊಂದರಲ್ಲಿ ಸಿಕ್ಕಿತು ಅಂತ ಭಾವಿಸಿಕೊಳ್ಳೋಣ. ಅದರಲ್ಲಿ ಹಲವು ಶಬ್ದಗಳು ಮಾಸಿರಬಹುದು, ಹುಳುತಿಂದು ಹೋಗಿರಬಹುದು, ಅಕ್ಷರಗಳು ಅಳಿಸಿಹೋಗಿರಬಹುದು. ಹಸ್ತಪ್ರತಿಯನ್ನು ರಾ. ನರಸಿಂಹಾಚಾರ್ಯರೋ ಡಿ. ಎಲ್. ನರಸಿಂಹಾಚಾರ್ಯರೋ ತೀನಂಶ್ರೀಯವರೋ ನೋಡಿದರೆ, ಆ ಅಳಿಸಿಹೋಗಿರುವ ಪದ ಬಂದಿರುವ ಪ್ರಸಂಗ, ಸಂದರ್ಭ ಯಾವುದು, ಅದರ ಹಿಂದೆ ಮುಂದೆ ಇರುವ ಪದಗಳು, ಸಾಲುಗಳು ಯಾವುವು ಎಂದೆಲ್ಲ ನೋಡಿ, ಪಾಂಡಿತ್ಯದ ಬಲದಿಂದ ಊಹಾಪಾಠವೊಂದನ್ನು ಕಲ್ಪಿಸಿಕೊಂಡು, ಅಲ್ಲಿ ಯಾವ ಶಬ್ದವನ್ನು ಕವಿ ಬಳಸಿದ್ದಿರಬೇಕು ಎಂಬ ನಿರ್ಣಯಕ್ಕೆ ಬರುತ್ತಿದ್ದರು. ಒಂದು ಪದಪ್ರಯೋಗದ ಪೂರ್ವಾಪರ ಸಂದರ್ಭವು ಗೂಗಲಂಕಲ್ಲಿಗೆ ತಿಳಿಯುವುದೂ ಹೆಚ್ಚು ಕಡಿಮೆ ಇದೇ ರೀತಿಯಲ್ಲಿ.

ಈಗೊಬ್ಬರು ‘ವಿನಾಡಕ’ ಅಂತ ತಪ್ಪಾಗಿ ಟೈಪು ಮಾಡಿದರು ಅಂತಿಟ್ಟುಕೊಳ್ಳೋಣ. ವಿತಾನಕ, ವಿಧಾಯಕ, ವಿನಾಯಿತಿ, ವಿನಾಶಕ, ವಿನಾಯಕ – ಇವುಗಳಲ್ಲಿ ಯಾವುದಾದರೂ ಟೈಪು ಮಾಡಿದವರ ಮನಸ್ಸಿನಲ್ಲಿದ್ದಿರಬಹುದು. ಅವರ ಟೈಪು ಮಾಡಹೊರಟದ್ದು ಏನನ್ನು ಅಂತ ಗೊತ್ತಾಗಲಿಕ್ಕೆ ಗೂಗಲ್ಲು ಆ ಪದದ ಆಸುಪಾಸಿನಲ್ಲಿ ಯಾವ ಪದಗಳು ಕಾಣಿಸಿಕೊಳ್ಳುತ್ತವೆ ಅಂತಲೂ ಅಂದಾಜು ಮಾಡುತ್ತದೆ. ಅದೇ ವಾಕ್ಯದಲ್ಲಿ ಚೌತಿಯ ಪ್ರಸ್ತಾವವೂ ಇದ್ದರೆ, ‘ವಿನಾಯಕ’ವೇ ಸರಿಯಿರಬಹುದು, ‘ವಿಘ್ನ’ ಎಂಬ ಪದದ ಮುಂದಾದರೆ ‘ವಿನಾಶಕ’ವು ಹೊಂದಿಕೆಯಾದೀತು, ಹೀಗೆ. ಇಷ್ಟು ತರ್ಕಿಸುವ ಶಕ್ತಿ ಅದಕ್ಕೆ ಸುಮ್ಮನೆ ಬರಲಿಲ್ಲ. 2011ರಲ್ಲೇ ಗೂಗಲ್ಲು ಸುಮಾರು 95 ಸಾವಿರ ಕೋಟಿ ವಾಕ್ಯಗಳನ್ನು ಸಂಗ್ರಹಿಸಿ ಇಟ್ಟುಕೊಂಡಿತ್ತು! ‘ನಾನು ನಾಳೆ ಊರಿಗೆ ಹೋಗಿ ಮುಟ್ಟುವೆ’ ಎಂಬ ವಾಕ್ಯ ಸಿಕ್ಕಿದರೆ, ಅದನ್ನು ಬಿಡಿಸಿ ಐದು ಬಿಡಿ ಪದಗಳನ್ನು ಗೂಗಲ್ಲು ಮೊದಲು ಸಂಗ್ರಹಿಸುತ್ತದೆ. ಆಮೇಲೆ, ‘ನಾನು ನಾಳೆ’, ‘ನಾಳೆ ಊರಿಗೆ’, ‘ಊರಿಗೆ ಹೋಗಿ’, ‘ಹೋಗಿ ಮುಟ್ಟುವೆ’ – ಹೀಗೆ ಜೊತೆಜೊತೆಗೆ ಬರುವ ಎರಡೆರಡು ಪದಗಳ ಪಟ್ಟಿ ಮಾಡುತ್ತದೆ (ಬಿಡಿಪದಗಳಿಗೆ unigrams ಎಂದೂ, ಎರಡರ ಪಟ್ಟಿಗೆ bigrams ಎಂದೂ ಹೆಸರು). ‘ನಾನು ನಾಳೆ ಊರಿಗೆ’, ‘ನಾಳೆ ಊರಿಗೆ ಹೋಗಿ’, ‘ಊರಿಗೆ ಹೋಗಿ ಮುಟ್ಟುವೆ’ – ಹೀಗೆ ವಿಂಗಡಿಸಿಕೊಂಡರೆ ಒಟ್ಟೊಟ್ಟಿಗೆ ಬರುವ ಮೂರು ಪದಗಳ ಪಟ್ಟಿ(trigrams) ಕೂಡ ತಯಾರಾಗುತ್ತದೆ. ಒಂದು ಪದವು ವಾಕ್ಯದ ಮಿಕ್ಕ ಭಾಗದ ಜೊತೆ ಹೇಗೆ ಹೊಂದಿಕೊಳ್ಳುತ್ತದೆ, ಒಂದು ಪದದ ಹಿಂದೆಮುಂದೆ ಸಾಧಾರಣವಾಗಿ ಏನಿರುತ್ತದೆ ಎಂದು ಗೊತ್ತಾಗಲು ಇದು ಸಹಕಾರಿ.

ಇನ್ನು ಒಬ್ಬರು ‘ನಂಗಳೂರು’ ಎಂದು ಟೈಪು ಮಾಡಿ ಯಾವ ಲಿಂಕನ್ನೂ ಕ್ಲಿಕ್ ಮಾಡದೆ, ಅದನ್ನು ತಿದ್ದಿ ‘ಮಂಗಳೂರು’ ಎಂದು ಹುಡುಕಿದಾಗ ಬಂದ ಕೊಂಡಿಗಳನ್ನು ಕ್ಲಿಕ್ ಮಾಡಿದರೆ, ಅದನ್ನೂ ಗೂಗಲ್ಲು ಟಿಪ್ಪಣಿ ಮಾಡಿ ಇಟ್ಟುಕೊಳ್ಳುತ್ತದೆ. ಮತ್ತು ‘serve as the’ ಎಂಬ ಉದಾಹರಣೆಯನ್ನು ತೆಗೆದುಕೊಂಡರೆ, ಅದರ ಮುಂದೆ ಬರಬಹುದಾದ ಪದಗಳ ಸಂಭವನೀಯತೆಯ ಪಟ್ಟಿಯೂ ಇರುತ್ತದೆ. ‘serve as the inspiration’ ಎಂದು ಬರುವ ವಾಕ್ಯಗಳು 1390 ಇವೆ, ‘serve as the instrument’ ಅನ್ನುವುದು 614 ವಾಕ್ಯಗಳಲ್ಲಿ ಇದೆ, 838 ‘serve as the information’ಗಳಿವೆ, ಹೀಗೆ. ‘serve as the’ ಎಂಬ ಪದಗಳಾದ ಮೇಲೆ ಬರುವ ಪದ ಇವುಗಳಲ್ಲೇ ಒಂದಾಗಿರಬಹುದು ಅಂತ ಗೂಗಲ್ಲು ಊಹಿಸುತ್ತದೆ, ಯಾವುದು ಎಷ್ಟು ಸಂಭವನೀಯ ಅಂತ ಗಣಿತಶಾಸ್ತ್ರದ ಬೇಯೆಸ್ ಪ್ರಮೇಯವನ್ನು ಬಳಸಿ ಲೆಕ್ಕವನ್ನೂ ಹಾಕಲಾಗುತ್ತದೆ. ಒಂದು ತಪ್ಪು ಪದಕ್ಕೆ ಎಷ್ಟು ಸಲ ಬದಲಾವಣೆ ಮಾಡಿದರೆ ಸರಿಯಾದ ಪದ ಸಿದ್ಧಿಸುತ್ತದೆ ಎಂಬುದರ ಅಳತೆಗೆ ‘Edit Distance’ ಅನ್ನುತ್ತಾರೆ. ‘ಕಮಾಲ’ವು ಕಮಲವಾಗಲು ಒಂದೇ ಬದಲಾವಣೆ ಸಾಕು, ‘ಕಮಾಲ’ವನ್ನು ‘ಗಮಾರ’ ಎಂದು ಮಾಡಬೇಕಾದರೆ ಎರಡು ಅಕ್ಷರಗಳು ಬದಲಾಗಬೇಕು, ಅಂದರೆ ಎಡಿಟ್ ಡಿಸ್ಟೆನ್ಸ್ ಹೆಚ್ಚು. ಇದನ್ನು ಲೆಕ್ಕಕ್ಕೆ ತೆಗೆದುಕೊಳ್ಳುವುದೂ ಮುಖ್ಯ.

ಗೂಗಲ್ಲು ಭಾಷಾಕೋವಿದನಾಗುವ ಹಾದಿಯಲ್ಲಿ ಇಡುವ ಹೆಜ್ಜೆಗಳು ಇರುವುದು ಹೀಗೆಯೇ.