Qianfan-OCR: Единая сквозная модель для анализа документов

Аннотация

Мы представляем Qianfan-OCR — сквозную визуально-языковую модель с 4 миллиардами параметров, которая объединяет парсинг документов, анализ разметки и понимание документов в единой архитектуре. Модель выполняет прямую конвертацию из изображения в Markdown и поддерживает разнообразные задачи по запросу, включая извлечение таблиц, понимание диаграмм, вопросно-ответную работу с документами и извлечение ключевой информации. Чтобы решить проблему потери явного анализа разметки в сквозном OCR, мы предлагаем метод Layout-as-Thought — опциональную фазу "размышления", активируемую специальными токенами. Эта фаза генерирует структурированные представления разметки (ограничивающие рамки, типы элементов и порядок чтения) перед формированием окончательного результата, восстанавливая возможности привязки к разметке и повышая точность работы со сложными макетами. Qianfan-OCR занимает первое место среди сквозных моделей в тестах OmniDocBench v1.5 (93.12) и OlmOCR Bench (79.8), показывает конкурентоспособные результаты на OCRBench, CCOCR, DocVQA и ChartQA по сравнению с общими VLM-моделями сопоставимого масштаба и достигает наивысшего среднего балла на публичных бенчмарках по извлечению ключевой информации, превосходя Gemini-3.1-Pro, Seed-2.0 и Qwen3-VL-235B. Модель общедоступна через платформу Baidu AI Cloud Qianfan.

English

We present Qianfan-OCR, a 4B-parameter end-to-end vision-language model that unifies document parsing, layout analysis, and document understanding within a single architecture. It performs direct image-to-Markdown conversion and supports diverse prompt-driven tasks including table extraction, chart understanding, document QA, and key information extraction. To address the loss of explicit layout analysis in end-to-end OCR, we propose Layout-as-Thought, an optional thinking phase triggered by special think tokens that generates structured layout representations -- bounding boxes, element types, and reading order -- before producing final outputs, recovering layout grounding capabilities while improving accuracy on complex layouts. Qianfan-OCR ranks first among end-to-end models on OmniDocBench v1.5 (93.12) and OlmOCR Bench (79.8), achieves competitive results on OCRBench, CCOCR, DocVQA, and ChartQA against general VLMs of comparable scale, and attains the highest average score on public key information extraction benchmarks, surpassing Gemini-3.1-Pro, Seed-2.0, and Qwen3-VL-235B. The model is publicly accessible via the Baidu AI Cloud Qianfan platform.

Qianfan-OCR: Единая сквозная модель для анализа документов

Qianfan-OCR: A Unified End-to-End Model for Document Intelligence

Аннотация

Support