OCR
OCRمخفف Optical character recognition یا شناسایی نوری کاراکترهاست. به نرمافزاری که بتواند صفحات اسکن شده را به فرمت متنی تبدیل کند نرمافزار OCRگفته میشود. نرم افزار معمول و رایج OCR به زبان لاتین میباشد.
OCR(Optical Character Recognition) که با سرواژهی OCR شناخته میشود، از مهمترین شاخه های بازشناسی متن است. OCR عبارت است از بازشناسی خودکار متون موجود در تصاویر اسناد و تبدیل آنها به متون قابل جستجو و ویرایش توسط رایانه. تصویر سند غالبا توسط روبشگر (اسکنر) و یا دوربین دیجیتال تولید میشود و شامل تعدادی پیکسل با رنگهای مختلف و سطوح روشنایی گوناگون است. از دید انسان، یک سند ممکن است ارزش اطلاعاتی زیادی داشته باشد، لیکن از دید رایانه تصویر یک سند با تصویر یک منظره تفاوتی ندارد، چرا که هر دوی آنها مجموعهای از پیکسلها هستند. برای اینکه بتوان از اطلاعات نوشتاری تصویر سند استفاده کرد، باید به نحوی نوشتههای موجود در سند را بازشناسی کرد. چنین کاری توسط نرم افزارهای نویسهخوان نوری انجام میشود.
واژهٔ OCR ابتدا تنها در مورد بازشناسی ارقام و حروف چاپی بکار گرفته میشد. پسوند نوری در این عبارت در مقابل عبارت مرکب مغناطیسی (Magnetic Ink) قرار داده شد تا این روش را از روش قدیمیتر بازشناسی نویسهها با مرکب مغناطیسی ،MICR، متمایز کند. با گذشت زمان و پیشرفت قابل توجه در این زمینه، روشهای بازشناسی دستنوشته و متون چاپی مطرح شدند که دامنهٔ کار را به کلمات و عبارات رساندند. با وجود عدم تطبیق دقیق OCR با این موارد، این نام برای این روشها هم استفاده شد و رواج پیدا کرد. هماکنون OCR را بیشتر برای بازشناسی مستندات چاپی مثل صفحات کتابها، مجلهها و نامههای چاپی به کار میبرند.
می توان به نرم افزار های سازمانی مانند نرم افزار اتوماسیون اداری، نرم افزار دبیر خانه، نرم افزار بایگانی و… نیز برای افزایش راندمان اشاره کرد.
OCR فارسی
با در نظر گرفتن این موضوع که نرم افزار OCR لاتین با پیشینهی تاریخی زیاد سالهاست که مورد استفاده بسیاری میباشد با اینحال امروزه نیز نرم افزار OCR فارسی آنگونه که باید مورد استفاده قرار نگرفته است. از دلایل این امر میتوان به موارد ذیل اشاره نمود:
پیچیدگیهای زبان فارسی
عدم سرمایه گذاری کلان در این زمینه
عدم آشنایی شرکتهای با OCR
استاندارد نبودن فونتهای فارسی و …
با اینحال حاصل تلاشهای متخصصان ایرانی، توسعهی نرم افزار تشخیص متن فارسی با حداکثر دقت (دقت تبدیل تصویر به متن90درصدی) میباشد.