Qianfan-OCR: Um Modelo Unificado de Fim a Fim para Inteligência Documental
Qianfan-OCR: A Unified End-to-End Model for Document Intelligence
March 11, 2026
Autores: Daxiang Dong, Mingming Zheng, Dong Xu, Chunhua Luo, Bairong Zhuang, Yuxuan Li, Ruoyun He, Haoran Wang, Wenyu Zhang, Wenbo Wang, Yicheng Wang, Xue Xiong, Ayong Zheng, Xiaoying Zuo, Ziwei Ou, Jingnan Gu, Quanhao Guo, Jianmin Wu, Dawei Yin, Dou Shen
cs.AI
Resumo
Apresentamos o Qianfan-OCR, um modelo de visão e linguagem de 4 bilhões de parâmetros de ponta a ponta que unifica a análise de documentos, a análise de layout e a compreensão de documentos em uma única arquitetura. Ele realiza conversão direta de imagem para Markdown e suporta diversas tarefas orientadas por instruções, incluindo extração de tabelas, compreensão de gráficos, Q&A de documentos e extração de informações-chave. Para resolver a perda da análise de layout explícita no OCR de ponta a ponta, propomos o Layout-as-Thought, uma fase de pensamento opcional acionada por *tokens* especiais de "pensar" que gera representações de layout estruturado — caixas delimitadoras, tipos de elemento e ordem de leitura — antes de produzir as saídas finais, recuperando capacidades de fundamentação de layout enquanto melhora a precisão em layouts complexos. O Qianfan-OCR ocupa a primeira posição entre os modelos de ponta a ponta no OmniDocBench v1.5 (93.12) e no OlmOCR Bench (79.8), alcança resultados competitivos no OCRBench, CCOCR, DocVQA e ChartQA em comparação com VLMs gerais de escala comparável, e atinge a pontuação média mais alta em benchmarks públicos de extração de informações-chave, superando o Gemini-3.1-Pro, Seed-2.0 e Qwen3-VL-235B. O modelo está publicamente acessível através da plataforma Qianfan do Baidu AI Cloud.
English
We present Qianfan-OCR, a 4B-parameter end-to-end vision-language model that unifies document parsing, layout analysis, and document understanding within a single architecture. It performs direct image-to-Markdown conversion and supports diverse prompt-driven tasks including table extraction, chart understanding, document QA, and key information extraction. To address the loss of explicit layout analysis in end-to-end OCR, we propose Layout-as-Thought, an optional thinking phase triggered by special think tokens that generates structured layout representations -- bounding boxes, element types, and reading order -- before producing final outputs, recovering layout grounding capabilities while improving accuracy on complex layouts. Qianfan-OCR ranks first among end-to-end models on OmniDocBench v1.5 (93.12) and OlmOCR Bench (79.8), achieves competitive results on OCRBench, CCOCR, DocVQA, and ChartQA against general VLMs of comparable scale, and attains the highest average score on public key information extraction benchmarks, surpassing Gemini-3.1-Pro, Seed-2.0, and Qwen3-VL-235B. The model is publicly accessible via the Baidu AI Cloud Qianfan platform.