ChatPaper.aiChatPaper

Meerdere-modaliteiten OCR: Alles Uit Documenten Ontleden

Multimodal OCR: Parse Anything from Documents

March 13, 2026
Auteurs: Handong Zheng, Yumeng Li, Kaile Zhang, Liang Xin, Guangwei Zhao, Hao Liu, Jiayu Chen, Jie Lou, Jiyu Qiu, Qi Fu, Rui Yang, Shuo Jiang, Weijian Luo, Weijie Su, Weijun Zhang, Xingyu Zhu, Yabin Li, Yiwei ma, Yu Chen, Zhaohui Yu, Guang Yang, Colin Zhang, Lei Zhang, Yuliang Liu, Xiang Bai
cs.AI

Samenvatting

Wij presenteren Multimodal OCR (MOCR), een paradigma voor het parseren van documenten dat tekst en grafische elementen gezamenlijk omzet in uniforme tekstuele representaties. In tegenstelling tot conventionele OCR-systemen die zich richten op tekstherkenning en grafische regio's als uitgeknipte pixels achterlaten, behandelt onze methode, genaamd dots.mocr, visuele elementen zoals grafieken, diagrammen, tabellen en pictogrammen als eersteklas parseerdoelen. Hierdoor kunnen systemen documenten parseren met behoud van semantische relaties tussen elementen. Het biedt verschillende voordelen: (1) het reconstrueert zowel tekst als graphics als gestructureerde outputs, wat een getrouwere documentreconstructie mogelijk maakt; (2) het ondersteunt end-to-end training over heterogene documentelementen, waardoor modellen semantische relaties tussen tekstuele en visuele componenten kunnen benutten; en (3) het zet voorheen weggegooide graphics om in herbruikbare code-level supervision, waardoor multimodale supervision die in bestaande documenten is ingebed, wordt ontsloten. Om dit paradigma op grote schaal praktisch toepasbaar te maken, bouwden we een uitgebreide data-engine op basis van PDF's, gerenderde webpagina's en native SVG-assets, en trainden we een compact 3B-parameter model via gefaseerde pretraining en supervised fine-tuning. Wij evalueren dots.mocr vanuit twee perspectieven: documentparsing en gestructureerde graphics-parsing. Op documentparsing benchmarks staat het op de tweede plaats, direct na Gemini 3 Pro op ons OCR Arena Elo-leaderboard, overtreft het bestaande open-source documentparsingsystemen, en vestigt het een nieuwe state-of-the-art van 83.9 op olmOCR Bench. Voor gestructureerde graphics-parsing behaalt dots.mocr een hogere reconstructiekwaliteit dan Gemini 3 Pro op image-to-SVG benchmarks, wat duidt op sterke prestaties voor grafieken, UI-lay-outs, wetenschappelijke figuren en chemische diagrammen. Deze resultaten tonen een schaalbare weg naar het opbouwen van grootschalige image-to-code corpora voor multimodale pretraining. Code en modellen zijn openbaar beschikbaar op https://github.com/rednote-hilab/dots.mocr.
English
We present Multimodal OCR (MOCR), a document parsing paradigm that jointly parses text and graphics into unified textual representations. Unlike conventional OCR systems that focus on text recognition and leave graphical regions as cropped pixels, our method, termed dots.mocr, treats visual elements such as charts, diagrams, tables, and icons as first-class parsing targets, enabling systems to parse documents while preserving semantic relationships across elements. It offers several advantages: (1) it reconstructs both text and graphics as structured outputs, enabling more faithful document reconstruction; (2) it supports end-to-end training over heterogeneous document elements, allowing models to exploit semantic relations between textual and visual components; and (3) it converts previously discarded graphics into reusable code-level supervision, unlocking multimodal supervision embedded in existing documents. To make this paradigm practical at scale, we build a comprehensive data engine from PDFs, rendered webpages, and native SVG assets, and train a compact 3B-parameter model through staged pretraining and supervised fine-tuning. We evaluate dots.mocr from two perspectives: document parsing and structured graphics parsing. On document parsing benchmarks, it ranks second only to Gemini 3 Pro on our OCR Arena Elo leaderboard, surpasses existing open-source document parsing systems, and sets a new state of the art of 83.9 on olmOCR Bench. On structured graphics parsing, dots.mocr achieves higher reconstruction quality than Gemini 3 Pro across image-to-SVG benchmarks, demonstrating strong performance on charts, UI layouts, scientific figures, and chemical diagrams. These results show a scalable path toward building large-scale image-to-code corpora for multimodal pretraining. Code and models are publicly available at https://github.com/rednote-hilab/dots.mocr.
PDF346March 25, 2026