Qianfan-OCR:一个面向文档智能的统一端到端模型
Qianfan-OCR: A Unified End-to-End Model for Document Intelligence
March 11, 2026
Autori: Daxiang Dong, Mingming Zheng, Dong Xu, Chunhua Luo, Bairong Zhuang, Yuxuan Li, Ruoyun He, Haoran Wang, Wenyu Zhang, Wenbo Wang, Yicheng Wang, Xue Xiong, Ayong Zheng, Xiaoying Zuo, Ziwei Ou, Jingnan Gu, Quanhao Guo, Jianmin Wu, Dawei Yin, Dou Shen
cs.AI
Abstract
Presentiamo Qianfan-OCR, un modello visione-linguaggio end-to-end da 4 miliardi di parametri che unifica l'analisi di documenti, l'analisi del layout e la comprensione documentale all'interno di un'unica architettura. Il modello esegue la conversione diretta da immagine a Markdown e supporta diverse attività guidate da prompt, tra cui estrazione di tabelle, comprensione di grafici, domande e risposte su documenti ed estrazione di informazioni chiave. Per ovviare alla perdita dell'analisi esplicita del layout nei sistemi OCR end-to-end, proponiamo Layout-as-Thought, una fase di ragionamento opzionale attivata da token speciali "think" che genera rappresentazioni strutturate del layout – bounding box, tipi di elemento e ordine di lettura – prima di produrre gli output finali, recuperando così le capacità di grounding del layout e migliorando l'accuratezza su layout complessi. Qianfan-OCR si classifica al primo posto tra i modelli end-to-end su OmniDocBench v1.5 (93.12) e OlmOCR Bench (79.8), ottiene risultati competitivi su OCRBench, CCOCR, DocVQA e ChartQA rispetto a modelli VLM generali di scala comparabile, e raggiunge il punteggio medio più alto sui benchmark pubblici di estrazione di informazioni chiave, superando Gemini-3.1-Pro, Seed-2.0 e Qwen3-VL-235B. Il modello è accessibile pubblicamente tramite la piattaforma Baidu AI Cloud Qianfan.
English
We present Qianfan-OCR, a 4B-parameter end-to-end vision-language model that unifies document parsing, layout analysis, and document understanding within a single architecture. It performs direct image-to-Markdown conversion and supports diverse prompt-driven tasks including table extraction, chart understanding, document QA, and key information extraction. To address the loss of explicit layout analysis in end-to-end OCR, we propose Layout-as-Thought, an optional thinking phase triggered by special think tokens that generates structured layout representations -- bounding boxes, element types, and reading order -- before producing final outputs, recovering layout grounding capabilities while improving accuracy on complex layouts. Qianfan-OCR ranks first among end-to-end models on OmniDocBench v1.5 (93.12) and OlmOCR Bench (79.8), achieves competitive results on OCRBench, CCOCR, DocVQA, and ChartQA against general VLMs of comparable scale, and attains the highest average score on public key information extraction benchmarks, surpassing Gemini-3.1-Pro, Seed-2.0, and Qwen3-VL-235B. The model is publicly accessible via the Baidu AI Cloud Qianfan platform.