Мультимодальное оптическое распознавание текста: анализ любых данных в документах

Аннотация

Мы представляем Multimodal OCR (MOCR) — парадигму анализа документов, которая совместно преобразует текст и графику в единые текстовые представления. В отличие от традиционных OCR-систем, которые фокусируются на распознавании текста и оставляют графические области в виде обрезанных пикселей, наш метод, названный dots.mocr, рассматривает визуальные элементы, такие как диаграммы, схемы, таблицы и иконки, как объекты анализа первого класса, что позволяет системам анализировать документы с сохранением семантических связей между элементами. Он предлагает несколько преимуществ: (1) он воссоздает как текст, так и графику в виде структурированных выходных данных, обеспечивая более точную реконструкцию документа; (2) он поддерживает сквозное обучение на разнородных элементах документа, позволяя моделям использовать семантические связи между текстовыми и визуальными компонентами; и (3) он преобразует ранее игнорируемую графику в пригодный для повторного использования код-уровень разметки, раскрывая мультимодальную разметку, встроенную в существующие документы. Чтобы сделать эту парадигму практичной в больших масштабах, мы создали комплексный механизм обработки данных из PDF-файлов, отрисованных веб-страниц и нативных SVG-ресурсов и обучили компактную модель с 3 миллиардами параметров с помощью поэтапного предварительного обучения и контролируемого тонкого дообучения. Мы оцениваем dots.mocr с двух точек зрения: анализ документа и анализ структурированной графики. На тестах для анализа документов он занимает второе место после Gemini 3 Pro на нашем OCR Arena Elo-лидерборде, превосходит существующие системы анализа документов с открытым исходным кодом и устанавливает новый рекорд в 83.9 на olmOCR Bench. В анализе структурированной графики dots.mocr демонстрирует более высокое качество реконструкции по сравнению с Gemini 3 Pro на тестах image-to-SVG, показывая высокую производительность на диаграммах, UI-макетах, научных рисунках и химических схемах. Эти результаты показывают масштабируемый путь к созданию крупномасштабных image-to-code корпусов для мультимодального предварительного обучения. Код и модели общедоступны по адресу https://github.com/rednote-hilab/dots.mocr.

English

We present Multimodal OCR (MOCR), a document parsing paradigm that jointly parses text and graphics into unified textual representations. Unlike conventional OCR systems that focus on text recognition and leave graphical regions as cropped pixels, our method, termed dots.mocr, treats visual elements such as charts, diagrams, tables, and icons as first-class parsing targets, enabling systems to parse documents while preserving semantic relationships across elements. It offers several advantages: (1) it reconstructs both text and graphics as structured outputs, enabling more faithful document reconstruction; (2) it supports end-to-end training over heterogeneous document elements, allowing models to exploit semantic relations between textual and visual components; and (3) it converts previously discarded graphics into reusable code-level supervision, unlocking multimodal supervision embedded in existing documents. To make this paradigm practical at scale, we build a comprehensive data engine from PDFs, rendered webpages, and native SVG assets, and train a compact 3B-parameter model through staged pretraining and supervised fine-tuning. We evaluate dots.mocr from two perspectives: document parsing and structured graphics parsing. On document parsing benchmarks, it ranks second only to Gemini 3 Pro on our OCR Arena Elo leaderboard, surpasses existing open-source document parsing systems, and sets a new state of the art of 83.9 on olmOCR Bench. On structured graphics parsing, dots.mocr achieves higher reconstruction quality than Gemini 3 Pro across image-to-SVG benchmarks, demonstrating strong performance on charts, UI layouts, scientific figures, and chemical diagrams. These results show a scalable path toward building large-scale image-to-code corpora for multimodal pretraining. Code and models are publicly available at https://github.com/rednote-hilab/dots.mocr.

Мультимодальное оптическое распознавание текста: анализ любых данных в документах

Multimodal OCR: Parse Anything from Documents

Аннотация

Support