一般的なOCR理論:統合エンドツーエンドモデルを通じたOCR-2.0へGeneral OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
従来のOCRシステム(OCR-1.0)は、人工光学文字の知的処理の需要が高まる中、人々の利用ニーズにますます対応できなくなっています。本論文では、すべての人工光学信号(例:プレーンテキスト、数学/分子式、表、図表、楽譜、さらには幾何学的形状など)を「文字」と総称し、一般OCR理論と優れたモデルであるGOTを提案して、OCR-2.0の到来を促進します。GOTは、580Mのパラメータを持つ統一された、エレガントでエンドツーエンドのモデルであり、高圧縮エンコーダと長いコンテキストデコーダから構成されています。OCR-2.0モデルとして、GOTはさまざまなOCRタスクで上記の「文字」すべてを処理できます。入力側では、モデルはスライスおよび全ページスタイルの一般的に使用されるシーンおよびドキュメントスタイルの画像をサポートしています。出力側では、GOTは簡単なプロンプトを介してプレーンまたはフォーマット済みの結果(markdown/tikz/smiles/kern)を生成できます。さらに、モデルは、座標や色によって誘導される領域レベルの認識を備えた対話型OCR機能を享受しています。さらに、より実用的にするために、GOTに動的解像度およびマルチページOCR技術を適応しています。実験では、当社のモデルの優越性を証明する十分な結果を提供しています。