OCR multimodal : analyser tout contenu de documents

Résumé

Nous présentons MOCR (Multimodal OCR), un paradigme d'analyse de documents qui analyse conjointement le texte et les éléments graphiques pour produire des représentations textuelles unifiées. Contrairement aux systèmes OCR conventionnels qui se concentrent sur la reconnaissance de texte et laissent les régions graphiques sous forme de pixels rognés, notre méthode, nommée dots.mocr, traite les éléments visuels tels que les graphiques, les diagrammes, les tableaux et les icônes comme des cibles d'analyse de premier ordre, permettant aux systèmes d'analyser les documents tout en préservant les relations sémantiques entre les éléments. Elle offre plusieurs avantages : (1) elle reconstruit à la fois le texte et les graphiques sous forme de sorties structurées, permettant une reconstruction plus fidèle des documents ; (2) elle prend en charge l'apprentissage de bout en bout sur des éléments de documents hétérogènes, permettant aux modèles d'exploiter les relations sémantiques entre les composants textuels et visuels ; et (3) elle convertit les éléments graphiques précédemment ignorés en une supervision réutilisable au niveau du code, libérant ainsi la supervision multimodale intégrée dans les documents existants. Pour rendre ce paradigme praticable à grande échelle, nous avons construit un moteur de données complet à partir de PDF, de pages web rendues et d'actifs SVG natifs, et avons entraîné un modèle compact de 3 milliards de paramètres via un pré-entraînement par étapes et un fine-tuning supervisé. Nous évaluons dots.mocr sous deux angles : l'analyse de documents et l'analyse de graphiques structurés. Sur les benchmarks d'analyse de documents, il se classe juste derrière Gemini 3 Pro sur notre classement Elo OCR Arena, surpasse les systèmes open-source existants d'analyse de documents, et établit un nouvel état de l'art de 83,9 sur olmOCR Bench. Sur l'analyse de graphiques structurés, dots.mocr obtient une qualité de reconstruction supérieure à Gemini 3 Pro sur les benchmarks image-vers-SVG, démontrant de solides performances sur les graphiques, les mises en page d'interface utilisateur, les figures scientifiques et les diagrammes chimiques. Ces résultats montrent une voie évolutive pour construire des corpus image-vers-code à grande échelle pour le pré-entraînement multimodal. Le code et les modèles sont disponibles publiquement à l'adresse https://github.com/rednote-hilab/dots.mocr.

English

We present Multimodal OCR (MOCR), a document parsing paradigm that jointly parses text and graphics into unified textual representations. Unlike conventional OCR systems that focus on text recognition and leave graphical regions as cropped pixels, our method, termed dots.mocr, treats visual elements such as charts, diagrams, tables, and icons as first-class parsing targets, enabling systems to parse documents while preserving semantic relationships across elements. It offers several advantages: (1) it reconstructs both text and graphics as structured outputs, enabling more faithful document reconstruction; (2) it supports end-to-end training over heterogeneous document elements, allowing models to exploit semantic relations between textual and visual components; and (3) it converts previously discarded graphics into reusable code-level supervision, unlocking multimodal supervision embedded in existing documents. To make this paradigm practical at scale, we build a comprehensive data engine from PDFs, rendered webpages, and native SVG assets, and train a compact 3B-parameter model through staged pretraining and supervised fine-tuning. We evaluate dots.mocr from two perspectives: document parsing and structured graphics parsing. On document parsing benchmarks, it ranks second only to Gemini 3 Pro on our OCR Arena Elo leaderboard, surpasses existing open-source document parsing systems, and sets a new state of the art of 83.9 on olmOCR Bench. On structured graphics parsing, dots.mocr achieves higher reconstruction quality than Gemini 3 Pro across image-to-SVG benchmarks, demonstrating strong performance on charts, UI layouts, scientific figures, and chemical diagrams. These results show a scalable path toward building large-scale image-to-code corpora for multimodal pretraining. Code and models are publicly available at https://github.com/rednote-hilab/dots.mocr.

OCR multimodal : analyser tout contenu de documents

Multimodal OCR: Parse Anything from Documents

Résumé

Support