ChatPaper.aiChatPaper

OCR Multimodal: Analisar Qualquer Conteúdo de Documentos

Multimodal OCR: Parse Anything from Documents

March 13, 2026
Autores: Handong Zheng, Yumeng Li, Kaile Zhang, Liang Xin, Guangwei Zhao, Hao Liu, Jiayu Chen, Jie Lou, Jiyu Qiu, Qi Fu, Rui Yang, Shuo Jiang, Weijian Luo, Weijie Su, Weijun Zhang, Xingyu Zhu, Yabin Li, Yiwei ma, Yu Chen, Zhaohui Yu, Guang Yang, Colin Zhang, Lei Zhang, Yuliang Liu, Xiang Bai
cs.AI

Resumo

Apresentamos o MOCR (OCR Multimodal), um paradigma de análise de documentos que analisa conjuntamente texto e elementos gráficos em representações textuais unificadas. Diferente dos sistemas de OCR convencionais, que se concentram no reconhecimento de texto e deixam regiões gráficas como pixels recortados, nosso método, denominado dots.mocr, trata elementos visuais como gráficos, diagramas, tabelas e ícones como alvos de análise de primeira classe, permitindo que os sistemas analisem documentos preservando as relações semânticas entre os elementos. Ele oferece várias vantagens: (1) reconstrói tanto texto quanto gráficos como saídas estruturadas, permitindo uma reconstrução de documentos mais fiel; (2) suporta treinamento end-to-end sobre elementos documentais heterogêneos, permitindo que os modelos explorem relações semânticas entre componentes textuais e visuais; e (3) converte gráficos anteriormente descartados em supervisão a nível de código reutilizável, desbloqueando a supervisão multimodal embutida em documentos existentes. Para tornar este paradigma prático em escala, construímos um motor de dados abrangente a partir de PDFs, páginas da web renderizadas e recursos SVG nativos, e treinamos um modelo compacto de 3 bilhões de parâmetros por meio de pré-treinamento escalonado e ajuste fino supervisionado. Avaliamos o dots.mocr a partir de duas perspectivas: análise de documentos e análise de gráficos estruturados. Em benchmarks de análise de documentos, ele ocupa o segundo lugar, atrás apenas do Gemini 3 Pro em nosso ranking Elo da OCR Arena, supera os sistemas de análise de documentos open-source existentes e estabelece um novo estado da arte de 83,9 no olmOCR Bench. Na análise de gráficos estruturados, o dots.mocr alcança qualidade de reconstrução superior ao Gemini 3 Pro em benchmarks de imagem-para-SVG, demonstrando alto desempenho em gráficos, layouts de UI, figuras científicas e diagramas químicos. Esses resultados mostram um caminho escalável para a construção de corpora image-to-code em larga escala para pré-treinamento multimodal. O código e os modelos estão publicamente disponíveis em https://github.com/rednote-hilab/dots.mocr.
English
We present Multimodal OCR (MOCR), a document parsing paradigm that jointly parses text and graphics into unified textual representations. Unlike conventional OCR systems that focus on text recognition and leave graphical regions as cropped pixels, our method, termed dots.mocr, treats visual elements such as charts, diagrams, tables, and icons as first-class parsing targets, enabling systems to parse documents while preserving semantic relationships across elements. It offers several advantages: (1) it reconstructs both text and graphics as structured outputs, enabling more faithful document reconstruction; (2) it supports end-to-end training over heterogeneous document elements, allowing models to exploit semantic relations between textual and visual components; and (3) it converts previously discarded graphics into reusable code-level supervision, unlocking multimodal supervision embedded in existing documents. To make this paradigm practical at scale, we build a comprehensive data engine from PDFs, rendered webpages, and native SVG assets, and train a compact 3B-parameter model through staged pretraining and supervised fine-tuning. We evaluate dots.mocr from two perspectives: document parsing and structured graphics parsing. On document parsing benchmarks, it ranks second only to Gemini 3 Pro on our OCR Arena Elo leaderboard, surpasses existing open-source document parsing systems, and sets a new state of the art of 83.9 on olmOCR Bench. On structured graphics parsing, dots.mocr achieves higher reconstruction quality than Gemini 3 Pro across image-to-SVG benchmarks, demonstrating strong performance on charts, UI layouts, scientific figures, and chemical diagrams. These results show a scalable path toward building large-scale image-to-code corpora for multimodal pretraining. Code and models are publicly available at https://github.com/rednote-hilab/dots.mocr.
PDF396March 30, 2026