ChatPaper.aiChatPaper

일반 OCR 이론: 통합 엔드투엔드 모델을 통한 OCR-2.0으로의 진화

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

September 3, 2024
저자: Haoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang
cs.AI

초록

전통적인 OCR 시스템 (OCR-1.0)은 인공 광학 문자의 지능적 처리에 대한 증가하는 수요로 인해 사람들의 사용 요구를 점점 더 충족시키기 어려워지고 있습니다. 본 논문에서는 모든 인공 광학 신호 (예: 일반 텍스트, 수학/분자식, 표, 차트, 악보, 심지어 기하학적 모양)을 "문자"로 통칭하고 일반 OCR 이론과 GOT라는 우수한 모델을 제안하여 OCR-2.0의 도래를 촉진합니다. 580M 개의 매개변수를 가진 GOT은 고압축 인코더와 장문맥 디코더로 구성된 통합적이고 우아하며 end-to-end 모델입니다. OCR-2.0 모델로 GOT은 다양한 OCR 작업에서 상기 "문자"를 모두 처리할 수 있습니다. 입력 측면에서 모델은 잘려진 이미지와 전체 페이지 스타일의 일반적으로 사용되는 장면 및 문서 형식을 지원합니다. 출력 측면에서 GOT은 간단한 프롬프트를 통해 일반 또는 서식이 있는 결과 (마크다운/tikz/smiles/kern)를 생성할 수 있습니다. 또한 모델은 좌표 또는 색상에 의해 안내되는 영역 수준 인식을 통한 대화식 OCR 기능을 지원합니다. 더불어, 우리는 GOT에 동적 해상도 및 다중 페이지 OCR 기술을 적용하여 실용성을 높였습니다. 실험에서 우리의 모델의 우월성을 증명하기 위해 충분한 결과를 제시합니다.
English
Traditional OCR systems (OCR-1.0) are increasingly unable to meet people's usage due to the growing demand for intelligent processing of man-made optical characters. In this paper, we collectively refer to all artificial optical signals (e.g., plain texts, math/molecular formulas, tables, charts, sheet music, and even geometric shapes) as "characters" and propose the General OCR Theory along with an excellent model, namely GOT, to promote the arrival of OCR-2.0. The GOT, with 580M parameters, is a unified, elegant, and end-to-end model, consisting of a high-compression encoder and a long-contexts decoder. As an OCR-2.0 model, GOT can handle all the above "characters" under various OCR tasks. On the input side, the model supports commonly used scene- and document-style images in slice and whole-page styles. On the output side, GOT can generate plain or formatted results (markdown/tikz/smiles/kern) via an easy prompt. Besides, the model enjoys interactive OCR features, i.e., region-level recognition guided by coordinates or colors. Furthermore, we also adapt dynamic resolution and multi-page OCR technologies to GOT for better practicality. In experiments, we provide sufficient results to prove the superiority of our model.

Summary

AI-Generated Summary

PDF859November 16, 2024