Общая теория OCR: к OCR-2.0 через объединенную модель end-to-end.General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
Традиционные системы OCR (OCR-1.0) все чаще не могут удовлетворить потребности людей из-за растущего спроса на интеллектуальную обработку оптических символов, созданных человеком. В данной статье мы обобщаем все искусственные оптические сигналы (например, обычные тексты, математические/молекулярные формулы, таблицы, графики, ноты и даже геометрические фигуры) как "символы" и предлагаем Общую Теорию OCR вместе с отличной моделью, названной GOT, для поощрения появления OCR-2.0. GOT, с 580 миллионами параметров, является объединенной, элегантной и конечной моделью, состоящей из высококомпрессионного кодера и декодера с длинными контекстами. Как модель OCR-2.0, GOT способен обрабатывать все вышеупомянутые "символы" в рамках различных задач OCR. На входе модель поддерживает широко используемые изображения в стиле сцены и документа в виде срезов и целых страниц. На выходе GOT может генерировать простые или форматированные результаты (markdown/tikz/smiles/kern) с помощью простого запроса. Кроме того, модель обладает интерактивными функциями OCR, то есть распознавание на уровне области, управляемое координатами или цветами. Кроме того, мы также адаптируем технологии динамического разрешения и многостраничное OCR к GOT для лучшей практичности. В экспериментах мы предоставляем достаточные результаты, чтобы доказать превосходство нашей модели.