通用OCR理論:通過統一的端對端模型邁向OCR-2.0General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
傳統的光學字符識別系統(OCR-1.0)由於對人工光學字符智能處理需求的增長,越來越難滿足人們的使用需求。本文將所有人工光學信號(例如純文本、數學/分子公式、表格、圖表、樂譜,甚至幾何形狀)統稱為「字符」,並提出了通用OCR理論以及一個出色的模型,即GOT,以推動OCR-2.0的到來。GOT擁有580M個參數,是一個統一、優雅且端到端的模型,包括高壓縮編碼器和長上下文解碼器。作為一個OCR-2.0模型,GOT可以應對各種OCR任務下的所有上述「字符」。在輸入端,該模型支持常用的場景和文檔風格的圖像,包括切片和整頁風格。在輸出端,GOT可以通過簡單提示生成純文本或格式化結果(markdown/tikz/smiles/kern)。此外,該模型還具有互動式OCR功能,即區域級別識別,可由坐標或顏色引導。此外,我們還將動態分辨率和多頁面OCR技術應用於GOT,以提高實用性。在實驗中,我們提供充分的結果來證明我們模型的優越性。