Общая теория OCR: к OCR-2.0 через объединенную модель end-to-end.
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
September 3, 2024
Авторы: Haoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang
cs.AI
Аннотация
Традиционные системы OCR (OCR-1.0) все чаще не могут удовлетворить потребности людей из-за растущего спроса на интеллектуальную обработку оптических символов, созданных человеком. В данной статье мы обобщаем все искусственные оптические сигналы (например, обычные тексты, математические/молекулярные формулы, таблицы, графики, ноты и даже геометрические фигуры) как "символы" и предлагаем Общую Теорию OCR вместе с отличной моделью, названной GOT, для поощрения появления OCR-2.0. GOT, с 580 миллионами параметров, является объединенной, элегантной и конечной моделью, состоящей из высококомпрессионного кодера и декодера с длинными контекстами. Как модель OCR-2.0, GOT способен обрабатывать все вышеупомянутые "символы" в рамках различных задач OCR. На входе модель поддерживает широко используемые изображения в стиле сцены и документа в виде срезов и целых страниц. На выходе GOT может генерировать простые или форматированные результаты (markdown/tikz/smiles/kern) с помощью простого запроса. Кроме того, модель обладает интерактивными функциями OCR, то есть распознавание на уровне области, управляемое координатами или цветами. Кроме того, мы также адаптируем технологии динамического разрешения и многостраничное OCR к GOT для лучшей практичности. В экспериментах мы предоставляем достаточные результаты, чтобы доказать превосходство нашей модели.
English
Traditional OCR systems (OCR-1.0) are increasingly unable to meet people's
usage due to the growing demand for intelligent processing of man-made optical
characters. In this paper, we collectively refer to all artificial optical
signals (e.g., plain texts, math/molecular formulas, tables, charts, sheet
music, and even geometric shapes) as "characters" and propose the General OCR
Theory along with an excellent model, namely GOT, to promote the arrival of
OCR-2.0. The GOT, with 580M parameters, is a unified, elegant, and end-to-end
model, consisting of a high-compression encoder and a long-contexts decoder. As
an OCR-2.0 model, GOT can handle all the above "characters" under various OCR
tasks. On the input side, the model supports commonly used scene- and
document-style images in slice and whole-page styles. On the output side, GOT
can generate plain or formatted results (markdown/tikz/smiles/kern) via an easy
prompt. Besides, the model enjoys interactive OCR features, i.e., region-level
recognition guided by coordinates or colors. Furthermore, we also adapt dynamic
resolution and multi-page OCR technologies to GOT for better practicality. In
experiments, we provide sufficient results to prove the superiority of our
model.Summary
AI-Generated Summary