gImageReader - система розпізнання тексту Tesseract OCR
gImageReader – це простий інтерфейс для tesseract-ocr. Tesseract, ймовірно, є найбільш точним програмним забезпеченням для оптичного розпізнавання символів (OCR) з відкритим вихідним кодом і може розпізнавати текст більш ніж 60 мовами.
Він підтримує автоматичне визначення макета сторінки, але користувач також може вручну визначити та налаштувати області розпізнавання. Можливий імпорт зображень із диска, скануючих пристроїв, буфера обміну та знімків екрана. Підтримує багатосторінкові PDF-документи. Розпізнаний текст відображається безпосередньо поряд із зображенням, і можливе базове редагування тексту, включаючи пошук/заміну та видалення розривів рядків. Перевірка орфографії вихідного тексту також підтримується, якщо встановлені відповідні словники.