Qianfan-OCR: Un Modelo Unificado de Extremo a Extremo para la Inteligencia Documental
Qianfan-OCR: A Unified End-to-End Model for Document Intelligence
March 11, 2026
Autores: Daxiang Dong, Mingming Zheng, Dong Xu, Chunhua Luo, Bairong Zhuang, Yuxuan Li, Ruoyun He, Haoran Wang, Wenyu Zhang, Wenbo Wang, Yicheng Wang, Xue Xiong, Ayong Zheng, Xiaoying Zuo, Ziwei Ou, Jingnan Gu, Quanhao Guo, Jianmin Wu, Dawei Yin, Dou Shen
cs.AI
Resumen
Presentamos Qianfan-OCR, un modelo de visión y lenguaje de extremo a extremo con 4.000 millones de parámetros que unifica el análisis de documentos, el análisis de diseño (layout) y la comprensión de documentos en una única arquitectura. Realiza conversión directa de imagen a Markdown y admite diversas tareas basadas en instrucciones (prompts), incluyendo extracción de tablas, comprensión de gráficos, preguntas y respuestas sobre documentos (document QA) y extracción de información clave. Para abordar la pérdida del análisis de diseño explícito en el OCR de extremo a extremo, proponemos Layout-as-Thought (Diseño como Pensamiento), una fase opcional de razonamiento activada por tokens de pensamiento especiales que genera representaciones estructuradas del diseño —cajas delimitadoras (bounding boxes), tipos de elementos y orden de lectura— antes de producir las salidas finales, recuperando así las capacidades de anclaje al diseño (layout grounding) y mejorando la precisión en diseños complejos. Qianfan-OCR ocupa el primer puesto entre los modelos de extremo a extremo en OmniDocBench v1.5 (93.12) y OlmOCR Bench (79.8), logra resultados competitivos en OCRBench, CCOCR, DocVQA y ChartQA en comparación con modelos de lenguaje y visión (VLM) generales de escala comparable, y alcanza la puntuación promedio más alta en los benchmarks públicos de extracción de información clave, superando a Gemini-3.1-Pro, Seed-2.0 y Qwen3-VL-235B. El modelo es de acceso público a través de la plataforma Qianfan de Baidu AI Cloud.
English
We present Qianfan-OCR, a 4B-parameter end-to-end vision-language model that unifies document parsing, layout analysis, and document understanding within a single architecture. It performs direct image-to-Markdown conversion and supports diverse prompt-driven tasks including table extraction, chart understanding, document QA, and key information extraction. To address the loss of explicit layout analysis in end-to-end OCR, we propose Layout-as-Thought, an optional thinking phase triggered by special think tokens that generates structured layout representations -- bounding boxes, element types, and reading order -- before producing final outputs, recovering layout grounding capabilities while improving accuracy on complex layouts. Qianfan-OCR ranks first among end-to-end models on OmniDocBench v1.5 (93.12) and OlmOCR Bench (79.8), achieves competitive results on OCRBench, CCOCR, DocVQA, and ChartQA against general VLMs of comparable scale, and attains the highest average score on public key information extraction benchmarks, surpassing Gemini-3.1-Pro, Seed-2.0, and Qwen3-VL-235B. The model is publicly accessible via the Baidu AI Cloud Qianfan platform.