Qianfan-OCR : Un modèle unifié de bout en bout pour l'intelligence documentaire

Résumé

Nous présentons Qianfan-OCR, un modèle vision-langage de bout en bout comptant 4 milliards de paramètres, qui unifie l'analyse documentaire, l'analyse de mise en page et la compréhension de documents au sein d'une architecture unique. Il effectue une conversion directe image-vers-Markdown et prend en charge diverses tâches pilotées par des invites, incluant l'extraction de tableaux, la compréhension de graphiques, la question-réponse sur documents et l'extraction d'informations clés. Pour pallier la perte de l'analyse explicite de la mise en page dans la reconnaissance optique de caractères (OCR) de bout en bout, nous proposons Layout-as-Thought, une phase de réflexion facultative déclenchée par des jetons de pensée spéciaux. Cette phase génère des représentations structurées de la mise en page – boîtes englobantes, types d'éléments et ordre de lecture – avant de produire les résultats finaux, restaurant ainsi les capacités d'ancrage spatial tout en améliorant la précision sur les mises en page complexes. Qianfan-OCR se classe premier parmi les modèles de bout en bout sur OmniDocBench v1.5 (93,12) et OlmOCR Bench (79,8), obtient des résultats compétitifs sur OCRBench, CCOCR, DocVQA et ChartQA par rapport aux modèles vision-langage généraux d'échelle comparable, et atteint le score moyen le plus élevé sur les benchmarks publics d'extraction d'informations clés, surpassant Gemini-3.1-Pro, Seed-2.0 et Qwen3-VL-235B. Le modèle est accessible publiquement via la plateforme Qianfan de Baidu AI Cloud.

English

We present Qianfan-OCR, a 4B-parameter end-to-end vision-language model that unifies document parsing, layout analysis, and document understanding within a single architecture. It performs direct image-to-Markdown conversion and supports diverse prompt-driven tasks including table extraction, chart understanding, document QA, and key information extraction. To address the loss of explicit layout analysis in end-to-end OCR, we propose Layout-as-Thought, an optional thinking phase triggered by special think tokens that generates structured layout representations -- bounding boxes, element types, and reading order -- before producing final outputs, recovering layout grounding capabilities while improving accuracy on complex layouts. Qianfan-OCR ranks first among end-to-end models on OmniDocBench v1.5 (93.12) and OlmOCR Bench (79.8), achieves competitive results on OCRBench, CCOCR, DocVQA, and ChartQA against general VLMs of comparable scale, and attains the highest average score on public key information extraction benchmarks, surpassing Gemini-3.1-Pro, Seed-2.0, and Qwen3-VL-235B. The model is publicly accessible via the Baidu AI Cloud Qianfan platform.

Qianfan-OCR : Un modèle unifié de bout en bout pour l'intelligence documentaire

Qianfan-OCR: A Unified End-to-End Model for Document Intelligence

Résumé

Support