Технический отчет FireRed-OCR

Аннотация

Мы представляем FireRed-OCR — системную платформу для преобразования общих VLM в высокопроизводительные OCR-модели. Крупные мультимодальные языковые модели (VLM) продемонстрировали впечатляющие общие возможности, но часто страдают от «структурных галлюцинаций» при обработке сложных документов, что ограничивает их полезность в промышленных OCR-приложениях. В данной статье мы представляем FireRed-OCR — новую платформу, предназначенную для преобразования моделей общего назначения (на базе Qwen3-VL) в экспертов по пиксельно-точному структурному анализу документов. Для решения проблемы нехватки высококачественных структурированных данных мы создали «Геометрическую + Семантическую» Фабрику Данных. В отличие от традиционной случайной выборки, наш конвейер использует кластеризацию геометрических признаков и многомерную разметку для синтеза и курирования высокосбалансированного набора данных, эффективно обрабатывающего редкие макеты и типы документов. Кроме того, мы предлагаем Трехэтапную Прогрессивную Стратегию Обучения, которая направляет модель от пиксельного восприятия к генерации логической структуры. Эта учебная программа включает: (1) Многозадачную предварительную адаптацию для закрепления понимания моделью структуры документа; (2) Специализированное SFT для стандартизации вывода Markdown для всего изображения; и (3) Оптимизацию Групповой Относительной Политики с Ограничениями Формата (GRPO), которая использует обучение с подкреплением для обеспечения строгой синтаксической валидности и структурной целостности (например, закрытие таблиц, синтаксис формул). Обширные оценки на OmniDocBench v1.5 показывают, что FireRed-OCR достигает наилучшей производительности с общим баллом 92,94%, значительно превосходя сильные базовые модели, такие как DeepSeek-OCR 2 и OCRVerse, по метрикам текста, формул, таблиц и порядка чтения. Мы открываем исходный код и веса нашей модели для содействия парадигме «От общего VLM к специализированному структурному эксперту».

English

We present FireRed-OCR, a systematic framework to specialize general VLMs into high-performance OCR models. Large Vision-Language Models (VLMs) have demonstrated impressive general capabilities but frequently suffer from ``structural hallucination'' when processing complex documents, limiting their utility in industrial OCR applications. In this paper, we introduce FireRed-OCR, a novel framework designed to transform general-purpose VLMs (based on Qwen3-VL) into pixel-precise structural document parsing experts. To address the scarcity of high-quality structured data, we construct a ``Geometry + Semantics'' Data Factory. Unlike traditional random sampling, our pipeline leverages geometric feature clustering and multi-dimensional tagging to synthesize and curate a highly balanced dataset, effectively handling long-tail layouts and rare document types. Furthermore, we propose a Three-Stage Progressive Training strategy that guides the model from pixel-level perception to logical structure generation. This curriculum includes: (1) Multi-task Pre-alignment to ground the model's understanding of document structure; (2) Specialized SFT for standardizing full-image Markdown output; and (3) Format-Constrained Group Relative Policy Optimization (GRPO), which utilizes reinforcement learning to enforce strict syntactic validity and structural integrity (e.g., table closure, formula syntax). Extensive evaluations on OmniDocBench v1.5 demonstrate that FireRed-OCR achieves state-of-the-art performance with an overall score of 92.94\%, significantly outperforming strong baselines such as DeepSeek-OCR 2 and OCRVerse across text, formula, table, and reading order metrics. We open-source our code and model weights to facilitate the ``General VLM to Specialized Structural Expert'' paradigm.

Технический отчет FireRed-OCR

FireRed-OCR Technical Report

Аннотация

Support