Я пользуюсь пакетом ABBYY OCR уже очень давно, может быть лет десять. ABBYY – это российская компания, которая разрабатывает решения в области распознавания текстов (OCR) и лингвистики. OCR – Optical Character Recognition (оптическое распознавание символов). В этой технологии некий математический алгоритм анализирует пиксели и, по определенным правилам, видит в них символы. Современный OCR распознает даже рукописный текст и иероглифы.
Долгое время для оцифровки документов я пользовался пакетом ABBYY для Windows и сканером. В настоящее время я перешел на Mac OS, и мне стало неудобно пользоваться программным пакетом для Windows, да и вообще программой, привязанной к компу. Не всегда есть возможность подключить сканер к ноутбуку, зато в каждом смартфоне есть отличная камера. Поэтому я искал решение, не привязанное к операционной системе. Для меня было удивительным, что ABBYY сделали отличную онлайн версию. С их качеством распознавания альтернативы просто не было.
ABBYY FineReader Online (позже ABBYY Cloud OCR) давал все необходимое: удобная заливка, а также распознавание текста и конвертация в нужный формат. Особенность ABBYY Cloud OCR в том, что он легко может видеть текст на сложном фоне.
Я одновременно делал 50 туристических виз в Британию, и количество документов на перевод было огромным. Почти каждому нужно было переводить свидетельство о рождении, о браке и нотариальные согласия на выезд. Возможность видеть текст на фоне из множества полосок было очень важным.
После распознавания документа ABBYY Cloud OCR отправляет созданный текстовый документ на google docs, и перевод делается в несколько касаний. Дальнейшее редактирование выполнить значительно проще, чем набирать текст вручную.
Второй очень важный плюс ABBYY – это цена. Не буду гадать, но это порядка £0.10-0.20 за страницу, что достаточно доступно при стоимости моих услуг от £40 за оформление всего пакета документов. Даже если распознавать все страницы всех документов – это все равно будет выгодно.
И вот почему. Одно из обязательных требований для получения британской визы – банковские выписки. Их содержанием можно манипулировать, повышая риск отказа, но я, как перфекционист, предпочитаю делать все точно по правилам. Банковские выписки требуются за три последних месяца. А у людей, которые много путешествуют, они могут занимать десять страниц и больше.
До работы с ABBYY Cloud OCR я бы переводил первую и последнюю страницу и прикладывал бы cover letter, объясняя содержание столбцов, потому что там почти всегда одни цифры. При работе с ABBYY Cloud OCR потребность в дополнительных манипуляциях отпадает. Теперь я могу распознавать все страницы и делать большой десятистраничный перевод с очень точными цифрами и минимальными затратами времени.
Я давно думал о разработке внутреннего приложения для ведения учета расходов и для оформления виз, конкретно – для перевода документов. Основная причина необходимости такого приложения в том, что я предпочитаю работать один. На компанию с более чем 500 транзакций в год и оборотом (не прибылью) в несколько сотен тысяч фунтов в год я делаю все: от программирования сайта и трансфера клиентов из аэропорта до бухгалтерских документов. Вот собственно бухгалтерия и является самой большой головной болью. В Британии ее вести относительно легко, особенно для компаний с небольшой прибылью, но необходимо собирать каждый чек и записывать его.
Имеющиеся решения для электронного учета чеков стоят довольно дорого и плохо интегрируются. Многие требуют стажера-бухгалтера, который вручную проверяет чеки. Это безумно с точки зрения информационной безопасности и эффективности. Поэтому, уже пару лет я фотографирую чеки и распознаю в мобильном приложении ABBYY FineReader для айфона примерно за £15 в год. При этом значительно улучшается качество и одновременно создаются уникальные pdf-файлы, которые сохраняют изображение и выделяемый текст.
Моя мечта на этот год – создать мобильное приложение, которое в два-три клика фотографирует чек, отправляет его на распознавание, сохраняет в нужной папке в бесплатном сервисе ownCloud и отмечает в банковской выписке или даже связывается с моим сервисом облачной бухгалтерии.
Это поможет освободить примерно две недели моего труда и даст возможность развиваться или путешествовать.
До 31 января ABBYY раздает 1000 страниц в месяц для Cloud OCR всем, кто напишет о них в блоге, и 100 страниц в месяц за пост в фейсбуке.