ಭಾನುವಾರ, 12 ಮೇ 2024
×
ADVERTISEMENT
ಈ ಕ್ಷಣ :
ADVERTISEMENT
ADVERTISEMENT

ಕನ್ನಡದ ಓಸಿಆರ್

ತಂತ್ರೋಪನಿಷತ್ತು
Last Updated 8 ಏಪ್ರಿಲ್ 2015, 19:30 IST
ಅಕ್ಷರ ಗಾತ್ರ

‘ಓಸಿಆರ್’ ಅಂದರೆ ಆಪ್ಟಿಕಲ್ ಕ್ಯಾರೆಕ್ಟರ್ ರೆಕಗ್ನಿಶನ್. ಚಿತ್ರರೂಪದಲ್ಲಿರುವ ಅಕ್ಷರಗಳನ್ನು ಕಂಪ್ಯೂಟರಿನಲ್ಲಿ ಸಂಪಾದಿ ಸಲು ಬರುವಂತಹ ಪಠ್ಯವಾಗಿ ಪರಿವರ್ತಿಸುವ ವ್ಯವಸ್ಥೆ. ಪಠ್ಯದಿಂದ ಧ್ವನಿಗೆ ಪರಿವರ್ತಿಸಲೂಬಹುದು. ಪುಸ್ತಕಗಳನ್ನು ಡಿಜಿಟಲೈಸ್ ಮಾಡುವ ಕ್ರಿಯೆಗೆ ಇದು ಹೆಚ್ಚು ಉಪಯುಕ್ತ.

ಕೈಯಲ್ಲಿ ಬರೆದಿರುವ, ಟೈಪಿಸಿದ ಅಥವಾ ಮುದ್ರಿಸಿದ ದಾಖಲೆಗಳನ್ನು ಸ್ಕ್ಯಾನ್ ಮಾಡಿ (JPEG, PNG, GIF, BMP, TIFF, PDF, DjVu ರೂಪದಲ್ಲಿರುವ) ತಿದ್ದಲು ಸಾಧ್ಯವಾಗುವಂತಹ ಅಕ್ಷರದ ರೂಪದಲ್ಲಿ ನೀಡುತ್ತದೆ.  ಇಂಗ್ಲಿಷ್ ಭಾಷೆಗೆ ಸಂಬಂಧಿಸಿದಂತೆ ಲೆಕ್ಕವಿಲ್ಲದಷ್ಟು ಉಚಿತ ಮತ್ತು ಪಾವತಿಸಿ ಪಡೆಯಬಹುದಾದ ಓಸಿಆರ್ ತಂತ್ರಾಂಶಗಳಿವೆ. onlineocr.net, ocronline.com, newocr.com, ocrconvert.com, free-ocr.com… ಹೀಗೆ ಕೆಲವು ಉಚಿತ ಆನ್‌ಲೈನ್ ಓಸಿಆರ್‌ ಗಳಾಗಿವೆ.

ಇವುಗಳಲ್ಲಿ ದೊಡ್ಡ ಪ್ರಮಾಣದಲ್ಲಿ ಪಠ್ಯಗಳ ಪರಿವರ್ತನೆ ಕಷ್ಟಸಾಧ್ಯ. ಪ್ರಾದೇಶಿಕ ಭಾಷೆಗಳು, ಅದರಲ್ಲೂ ಕನ್ನಡ ಓಸಿಆರ್ ಸಿದ್ಧಪಡಿಸುವ ಕುರಿತು ಹಲವು ಪ್ರಯತ್ನಗಳು ನಡೆಯುತ್ತಲೇ ಇವೆ. ಕನ್ನಡದಲ್ಲಿ ಒತ್ತಕ್ಷರಗಳಿರುವುದು ಕೂಡ ತಂತ್ರಾಂಶ ರೂಪಿಸಲು ಎದುರಾಗಿರುವ ಒಂದು ಪ್ರಮುಖ ಸಮಸ್ಯೆ. ಈಗಿರುವ ರೋಮನ್ ಭಾಷೆಗೆ ಸಂಬಂಧಿಸಿದ ತಂತ್ರಾಂಶಗಳಲ್ಲಿಯೇ ಕನ್ನಡ ಪಠ್ಯವನ್ನು ಬಳಸಲು ಉಪತಂತ್ರಾಂಶ ಅಭಿವೃದ್ಧಿಪಡಿಸಬೇಕಿದೆ.

ಕನ್ನಡದ ಬಗ್ಗೆ ಕಾಳಜಿ ಇರುವ ತಂತ್ರಜ್ಞರು ಕೆಲವಷ್ಟು ತಂತ್ರಾಂಶಗಳನ್ನು ರೂಪಿಸಿದ್ದಾರೆ kannadaocr.com (KanScan),Tesseract ocr, ಮುಖ್ಯವಾಗಿ ಗುರುತಿಸಬಹುದು. ಅಲ್ಲದೆ, ರೋಮನ್ ಭಾಷೆಗೆ ಸಂಬಂಧಿಸಿದ ಕೆಲವು ಓಸಿಆರ್‌ಗಳಲ್ಲಿ ಕನ್ನಡ ಪಠ್ಯ ಬಳಸಲು ಅನುವು ಮಾಡಿಕೊಡಲಾಗಿದೆ. ಉಚಿತವಾಗಿರುವ ಕೆಲವು ಆನ್‌ಲೈನ್ ಓಸಿಆರ್‌ಗಳನ್ನು ಇಲ್ಲಿ ಸಂಕ್ಷಿಪ್ತವಾಗಿ ಗಮನಿಸೋಣ. ಉದಾಹರಣೆಗೆ: www.newocr.com.

ಇದರಲ್ಲಿ ಅಕ್ಷರಗಳನ್ನು ಗುರುತಿಸುವುದಕ್ಕೆ ಸಂಬಂಧಿಸಿದಂತೆ ಕೆಲವು ದೋಷಗಳಿವೆ. ವಿಶೇಷವಾಗಿ ಒತ್ತಕ್ಷರಗಳು ಇದ್ದಾಗ, ಸ್ಕ್ಯಾನ್‌ ಪ್ರತಿಯಲ್ಲಿ ‘ಕ್ಷಮತೆ’ ಎಂದಿರುವುದು ‘ಕಯಕಕ್ಷಿಮತೆ’ ಎಂದೂ, ‘ಸಂಪರ್ಕ’ ಎಂದಿದ್ದರೆ ಅದು ಅಕ್ಷರ ರೂಪಕ್ಕೆ ಬಂದಾಗ ‘ಸಂಪಕಕ’ ಎಂದೂ, ‘ದಿನ’ ಎಂದಿರುವುದು ‘ದನ’ ಎಂದೂ ಪರಿವರ್ತನೆಯಾಗುತ್ತದೆ.

ಸ್ಕ್ಯಾನ್‌ ಮಾಡಿದ ಪ್ರತಿ ಎಷ್ಟೇ ಸ್ಪಷ್ಟವಾಗಿದ್ದರೂ ಒತ್ತಕ್ಷರ ಒಡೆದು ಹೋಗುವುದಷ್ಟೇ ಅಲ್ಲದೆ, ‘ಇ’ ಕಾರವಿರುವ ಕೆಲವು ಪದಗಳೂ ಓದಲಾಗದ ಮಟ್ಟಿಗೆ ವಿಕಾರಗೊಳ್ಳುತ್ತವೆ. ಮೂಲ ಪ್ರತಿ ಇಟ್ಟುಕೊಂಡರೂ ತಿದ್ದಲು ಹರಸಾಹಸ ಪಡಬೇಕಾಗು ತ್ತದೆ. ಇನ್ನು,  i2ocr.com, gdgt.io/tools/ocr ನಲ್ಲಿಯೂ ಇದೇ ಸಮಸ್ಯೆ ಇದೆ. ಎಲ್ಲಾ ಅಕ್ಷರಗಳನ್ನೂ ಸರಿ ಯಾಗಿ ಗುರುತಿಸಲು ಸಾಧ್ಯವಾಗದೇ ಉಂಟಾಗುವ ತಪ್ಪುಗಳನ್ನು ತಿದ್ದಲೇ ಹೆಚ್ಚು ಸಮಯ ಹಿಡಿಯುತ್ತದೆ.

ಹೀಗಿರುವಾಗ ದೊಡ್ಡ ಪ್ರಮಾಣದ ದಾಖಲೆಗಳನ್ನು ಅಥವಾ ಪಠ್ಯವನ್ನು ಪರಿವರ್ತಿಸಲು ಕೂತರೆ ಪರಿವರ್ತನೆ ಸಂದರ್ಭ ದಲ್ಲಾಗುವ ದೋಷ ಸರಿಪಡಿಸುವುದಕ್ಕೇ ಹೆಚ್ಚು ಸಮಯ ಹಿಡಿಯುತ್ತದೆ. ಈ ನಿಟ್ಟಿನಲ್ಲಿ, ದೋಷರಹಿತ ಉತ್ತಮ ಓಸಿಆರ್ ಅಭಿವೃದ್ಧಿಯಾಗಬೇಕಿದೆ. ಇದರಿಂದ ಕನ್ನಡದ ನಿಘಂಟುಗಳು, ಪುರಾತನ ಗ್ರಂಥಗಳು, ವಿವಿಧ ಸಾಹಿತ್ಯ ಪ್ರಕಾರಗಳೆಲ್ಲವನ್ನೂ ಡಿಜಿಟಲೈಸ್ ಮಾಡಿ ರಕ್ಷಿಸುವ ಜತೆಗೆ ಜಗತ್ತಿನ ಯಾವುದೋ ಮೂಲೆಯಲ್ಲಿರುವ ಕನ್ನಡಿಗನಿಗೂ ಸುಲಭವಾಗಿ ಓದಲು ಅನುಕೂಲ ಮಾಡಿಕೊಡಬಹುದು.
 

ತಾಜಾ ಸುದ್ದಿಗಾಗಿ ಪ್ರಜಾವಾಣಿ ಟೆಲಿಗ್ರಾಂ ಚಾನೆಲ್ ಸೇರಿಕೊಳ್ಳಿ | ಪ್ರಜಾವಾಣಿ ಆ್ಯಪ್ ಇಲ್ಲಿದೆ: ಆಂಡ್ರಾಯ್ಡ್ | ಐಒಎಸ್ | ನಮ್ಮ ಫೇಸ್‌ಬುಕ್ ಪುಟ ಫಾಲೋ ಮಾಡಿ.

ADVERTISEMENT
ADVERTISEMENT
ADVERTISEMENT
ADVERTISEMENT
ADVERTISEMENT