マルチモーダルOCR:文書からあらゆる情報を解析する
Multimodal OCR: Parse Anything from Documents
March 13, 2026
著者: Handong Zheng, Yumeng Li, Kaile Zhang, Liang Xin, Guangwei Zhao, Hao Liu, Jiayu Chen, Jie Lou, Jiyu Qiu, Qi Fu, Rui Yang, Shuo Jiang, Weijian Luo, Weijie Su, Weijun Zhang, Xingyu Zhu, Yabin Li, Yiwei ma, Yu Chen, Zhaohui Yu, Guang Yang, Colin Zhang, Lei Zhang, Yuliang Liu, Xiang Bai
cs.AI
要旨
我々は、テキストとグラフィックを統合されたテキスト表現に共同で解析する文書解析パラダイム「Multimodal OCR(MOCR)」を提案する。従来のOCRシステムがテキスト認識に注力しグラフィカル領域を切り出された画素として残すのに対し、我々の手法「dots.mocr」はチャート・図表・表・アイコンなどの視覚要素を第一級の解析対象として扱い、要素間の意味的関係を保ちながら文書を解析する。本手法には以下の利点がある:(1)テキストとグラフィックの両方を構造化出力として再構築し、より忠実な文書再構成を実現;(2)多種多様な文書要素に対するエンドツーエンド学習を支援し、テキストと視覚コンポーネントの意味的関係をモデルに活用可能に;(3)従来廃棄されていたグラフィックを再利用可能なコードレベル監督に変換し、既存文書に埋め込まれたマルチモーダルな教師信号を解放。
このパラダイムを大規模に実用化するため、PDF・レンダリング済みウェブページ・ネイティブSVG資産からなる包括的データエンジンを構築し、段階的な事前学習と教師ありファインチューニングを通じてコンパクトな30億パラメータモデルを学習した。dots.mocrを2つの視点で評価:(1)文書解析ベンチマークでは、OCR Arena EloリーダーボードでGemini 3 Proに次ぐ2位、既存オープンソース文書解析システムを凌駕し、olmOCR Benchで83.9の新たなSOTAを達成;(2)構造化グラフィック解析では、画像→SVGベンチマークにおいてGemini 3 Proを上回る再構成品質を実現し、チャート・UIレイアウト・科学図版・化学図式で強力な性能を発揮。これらの結果は、マルチモーダル事前学習向け大規模画像→コードコーパス構築へのスケーラブルな道筋を示す。コードとモデルはhttps://github.com/rednote-hilab/dots.mocr で公開。
English
We present Multimodal OCR (MOCR), a document parsing paradigm that jointly parses text and graphics into unified textual representations. Unlike conventional OCR systems that focus on text recognition and leave graphical regions as cropped pixels, our method, termed dots.mocr, treats visual elements such as charts, diagrams, tables, and icons as first-class parsing targets, enabling systems to parse documents while preserving semantic relationships across elements. It offers several advantages: (1) it reconstructs both text and graphics as structured outputs, enabling more faithful document reconstruction; (2) it supports end-to-end training over heterogeneous document elements, allowing models to exploit semantic relations between textual and visual components; and (3) it converts previously discarded graphics into reusable code-level supervision, unlocking multimodal supervision embedded in existing documents. To make this paradigm practical at scale, we build a comprehensive data engine from PDFs, rendered webpages, and native SVG assets, and train a compact 3B-parameter model through staged pretraining and supervised fine-tuning. We evaluate dots.mocr from two perspectives: document parsing and structured graphics parsing. On document parsing benchmarks, it ranks second only to Gemini 3 Pro on our OCR Arena Elo leaderboard, surpasses existing open-source document parsing systems, and sets a new state of the art of 83.9 on olmOCR Bench. On structured graphics parsing, dots.mocr achieves higher reconstruction quality than Gemini 3 Pro across image-to-SVG benchmarks, demonstrating strong performance on charts, UI layouts, scientific figures, and chemical diagrams. These results show a scalable path toward building large-scale image-to-code corpora for multimodal pretraining. Code and models are publicly available at https://github.com/rednote-hilab/dots.mocr.