一般的なOCR理論:統合エンドツーエンドモデルを通じたOCR-2.0へ
General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
September 3, 2024
著者: Haoran Wei, Chenglong Liu, Jinyue Chen, Jia Wang, Lingyu Kong, Yanming Xu, Zheng Ge, Liang Zhao, Jianjian Sun, Yuang Peng, Chunrui Han, Xiangyu Zhang
cs.AI
要旨
従来のOCRシステム(OCR-1.0)は、人工光学文字の知的処理の需要が高まる中、人々の利用ニーズにますます対応できなくなっています。本論文では、すべての人工光学信号(例:プレーンテキスト、数学/分子式、表、図表、楽譜、さらには幾何学的形状など)を「文字」と総称し、一般OCR理論と優れたモデルであるGOTを提案して、OCR-2.0の到来を促進します。GOTは、580Mのパラメータを持つ統一された、エレガントでエンドツーエンドのモデルであり、高圧縮エンコーダと長いコンテキストデコーダから構成されています。OCR-2.0モデルとして、GOTはさまざまなOCRタスクで上記の「文字」すべてを処理できます。入力側では、モデルはスライスおよび全ページスタイルの一般的に使用されるシーンおよびドキュメントスタイルの画像をサポートしています。出力側では、GOTは簡単なプロンプトを介してプレーンまたはフォーマット済みの結果(markdown/tikz/smiles/kern)を生成できます。さらに、モデルは、座標や色によって誘導される領域レベルの認識を備えた対話型OCR機能を享受しています。さらに、より実用的にするために、GOTに動的解像度およびマルチページOCR技術を適応しています。実験では、当社のモデルの優越性を証明する十分な結果を提供しています。
English
Traditional OCR systems (OCR-1.0) are increasingly unable to meet people's
usage due to the growing demand for intelligent processing of man-made optical
characters. In this paper, we collectively refer to all artificial optical
signals (e.g., plain texts, math/molecular formulas, tables, charts, sheet
music, and even geometric shapes) as "characters" and propose the General OCR
Theory along with an excellent model, namely GOT, to promote the arrival of
OCR-2.0. The GOT, with 580M parameters, is a unified, elegant, and end-to-end
model, consisting of a high-compression encoder and a long-contexts decoder. As
an OCR-2.0 model, GOT can handle all the above "characters" under various OCR
tasks. On the input side, the model supports commonly used scene- and
document-style images in slice and whole-page styles. On the output side, GOT
can generate plain or formatted results (markdown/tikz/smiles/kern) via an easy
prompt. Besides, the model enjoys interactive OCR features, i.e., region-level
recognition guided by coordinates or colors. Furthermore, we also adapt dynamic
resolution and multi-page OCR technologies to GOT for better practicality. In
experiments, we provide sufficient results to prove the superiority of our
model.Summary
AI-Generated Summary