gImageReader - система распознования текста Tesseract OCR
gImageReader — это простой интерфейс для tesseract-ocr. Tesseract, вероятно, является наиболее точным программным обеспечением для оптического распознавания символов (OCR) с открытым исходным кодом и может распознавать текст на более чем 60 языках.
Он поддерживает автоматическое определение макета страницы, но пользователь также может вручную определить и настроить области распознавания. Возможен импорт изображений с диска, сканирующих устройств, буфера обмена и снимков экрана. Поддерживает многостраничные PDF-документы. Распознанный текст отображается непосредственно рядом с изображением, и возможно базовое редактирование текста, включая поиск/замену и удаление разрывов строк. Проверка орфографии выходного текста также поддерживается, если установлены соответствующие словари.