OCRVerse: エンドツーエンド視覚言語モデルにおける包括的OCRの実現に向けて
OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models
January 29, 2026
著者: Yufeng Zhong, Lei Chen, Xuanle Zhao, Wenkang Han, Liming Zheng, Jing Huang, Deyang Jiang, Yilin Cao, Lin Ma, Zhixiong Zeng
cs.AI
要旨
大規模視覚言語モデルの発展は、マルチモーダルデータの大量管理と応用への需要を促進し、視覚画像から情報を抽出するOCR技術の普及を急速に進めている。しかし、既存のOCR手法は主に画像やスキャン文書からの文字要素認識(テキスト中心OCR)に焦点を当てており、図表、ウェブページ、科学プロットなどの視覚的情報が密集した画像源からの視覚要素識別(視覚中心OCR)が軽視されてきた。現実には、こうした視覚情報豊富な画像はインターネット上に広く存在し、データ可視化やウェブページ分析など実用的価値が極めて高い。本テクニカルレポートでは、テキスト中心OCRと視覚中心OCRを統合的に処理する初のエンドツーエンド方式による総合OCR手法「OCRVerse」を提案する。この実現に向け、新聞・雑誌・書籍などのテキスト中心文書から、図表・ウェブページ・科学プロットなどの視覚中心レンダリング合成データまで幅広くカバーする包括的データエンジニアリングを構築した。さらに、OCRVerseのために2段階のSFT-RLマルチドメイン訓練手法を考案した。SFT段階では異分野データを直接混合して初期ドメイン知識を構築し、RL段階では各ドメイン特性に応じた個別報酬戦略を設計する。具体的には、異なるドメインが多様な出力形式と期待出力を要求するため、RL段階で柔軟な報酬信号をカスタマイズする十分な自由度を設け、分野横断的融合を促進するとともにデータ競合を回避する。実験結果では、OCRVerseがテキスト中心と視覚中心の両データタイプで競争力のある性能を発揮し、大規模オープンソースモデルやクローズドソースモデルに匹敵する結果を得たことを実証する。
English
The development of large vision language models drives the demand for managing, and applying massive amounts of multimodal data, making OCR technology, which extracts information from visual images, increasingly popular. However, existing OCR methods primarily focus on recognizing text elements from images or scanned documents (Text-centric OCR), neglecting the identification of visual elements from visually information-dense image sources (Vision-centric OCR), such as charts, web pages and science plots. In reality, these visually information-dense images are widespread on the internet and have significant real-world application value, such as data visualization and web page analysis. In this technical report, we propose OCRVerse, the first holistic OCR method in end-to-end manner that enables unified text-centric OCR and vision-centric OCR. To this end, we constructe comprehensive data engineering to cover a wide range of text-centric documents, such as newspapers, magazines and books, as well as vision-centric rendered composites, including charts, web pages and scientific plots. Moreover, we propose a two-stage SFT-RL multi-domain training method for OCRVerse. SFT directly mixes cross-domain data to train and establish initial domain knowledge, while RL focuses on designing personalized reward strategies for the characteristics of each domain. Specifically, since different domains require various output formats and expected outputs, we provide sufficient flexibility in the RL stage to customize flexible reward signals for each domain, thereby improving cross-domain fusion and avoiding data conflicts. Experimental results demonstrate the effectiveness of OCRVerse, achieving competitive results across text-centric and vision-centric data types, even comparable to large-scale open-source and closed-source models.