ChatPaper.aiChatPaper

OCR multimodal: Analizar cualquier elemento de documentos

Multimodal OCR: Parse Anything from Documents

March 13, 2026
Autores: Handong Zheng, Yumeng Li, Kaile Zhang, Liang Xin, Guangwei Zhao, Hao Liu, Jiayu Chen, Jie Lou, Jiyu Qiu, Qi Fu, Rui Yang, Shuo Jiang, Weijian Luo, Weijie Su, Weijun Zhang, Xingyu Zhu, Yabin Li, Yiwei ma, Yu Chen, Zhaohui Yu, Guang Yang, Colin Zhang, Lei Zhang, Yuliang Liu, Xiang Bai
cs.AI

Resumen

Presentamos MOCR (OCR multimodal), un paradigma de análisis de documentos que analiza conjuntamente texto y elementos gráficos para convertirlos en representaciones textuales unificadas. A diferencia de los sistemas OCR convencionales que se centran en el reconocimiento de texto y dejan las regiones gráficas como píxeles recortados, nuestro método, denominado dots.mocr, trata elementos visuales como gráficos, diagramas, tablas e iconos como objetivos de análisis de primera clase, permitiendo que los sistemas analicen documentos preservando las relaciones semánticas entre elementos. Ofrece varias ventajas: (1) reconstruye tanto el texto como los gráficos como salidas estructuradas, permitiendo una reconstrucción de documentos más fiel; (2) soporta el entrenamiento end-to-end sobre elementos documentales heterogéneos, permitiendo que los modelos exploten las relaciones semánticas entre componentes textuales y visuales; y (3) convierte gráficos previamente descartados en supervisión a nivel de código reutilizable, desbloqueando la supervisión multimodal incrustada en documentos existentes. Para hacer este paradigma práctico a gran escala, construimos un motor de datos integral a partir de PDFs, páginas web renderizadas y recursos SVG nativos, y entrenamos un modelo compacto de 3B de parámetros mediante preentrenamiento escalonado y ajuste fino supervisado. Evaluamos dots.mocr desde dos perspectivas: análisis de documentos y análisis de gráficos estructurados. En los puntos de referencia de análisis de documentos, ocupa el segundo lugar después de Gemini 3 Pro en nuestro ranking Elo de OCR Arena, supera a los sistemas de análisis de documentos open-source existentes y establece un nuevo estado del arte de 83.9 en olmOCR Bench. En el análisis de gráficos estructurados, dots.mocr logra una mayor calidad de reconstrucción que Gemini 3 Pro en benchmarks de imagen-a-SVG, demostrando un rendimiento sólido en gráficos, diseños de interfaz de usuario, figuras científicas y diagramas químicos. Estos resultados muestran un camino escalable hacia la construcción de corpus a gran escala de imagen-a-código para preentrenamiento multimodal. El código y los modelos están disponibles públicamente en https://github.com/rednote-hilab/dots.mocr.
English
We present Multimodal OCR (MOCR), a document parsing paradigm that jointly parses text and graphics into unified textual representations. Unlike conventional OCR systems that focus on text recognition and leave graphical regions as cropped pixels, our method, termed dots.mocr, treats visual elements such as charts, diagrams, tables, and icons as first-class parsing targets, enabling systems to parse documents while preserving semantic relationships across elements. It offers several advantages: (1) it reconstructs both text and graphics as structured outputs, enabling more faithful document reconstruction; (2) it supports end-to-end training over heterogeneous document elements, allowing models to exploit semantic relations between textual and visual components; and (3) it converts previously discarded graphics into reusable code-level supervision, unlocking multimodal supervision embedded in existing documents. To make this paradigm practical at scale, we build a comprehensive data engine from PDFs, rendered webpages, and native SVG assets, and train a compact 3B-parameter model through staged pretraining and supervised fine-tuning. We evaluate dots.mocr from two perspectives: document parsing and structured graphics parsing. On document parsing benchmarks, it ranks second only to Gemini 3 Pro on our OCR Arena Elo leaderboard, surpasses existing open-source document parsing systems, and sets a new state of the art of 83.9 on olmOCR Bench. On structured graphics parsing, dots.mocr achieves higher reconstruction quality than Gemini 3 Pro across image-to-SVG benchmarks, demonstrating strong performance on charts, UI layouts, scientific figures, and chemical diagrams. These results show a scalable path toward building large-scale image-to-code corpora for multimodal pretraining. Code and models are publicly available at https://github.com/rednote-hilab/dots.mocr.
PDF396March 30, 2026