Rapport Technique FireRed-OCR

Résumé

Nous présentons FireRed-OCR, un cadre systématique pour spécialiser les grands modèles vision-langage (VLM) généraux en modèles de reconnaissance optique de caractères (OCR) haute performance. Les grands modèles vision-langage ont démontré des capacités générales impressionnantes, mais souffrent fréquemment d'« hallucination structurelle » lors du traitement de documents complexes, limitant ainsi leur utilité dans les applications industrielles de l'OCR. Dans cet article, nous introduisons FireRed-OCR, un nouveau cadre conçu pour transformer les VLM généralistes (basés sur Qwen3-VL) en experts de l'analyse structurelle de documents avec une précision au pixel. Pour pallier la rareté des données structurées de haute qualité, nous avons construit une « Usine de Données Géométrie + Sémantique ». Contrairement à l'échantillonnage aléatoire traditionnel, notre pipeline exploite le clustering de caractéristiques géométriques et l'étiquetage multidimensionnel pour synthétiser et constituer un jeu de données extrêmement équilibré, gérant efficacement les mises en page à queue longue et les types de documents rares. De plus, nous proposons une stratégie d'Entraînement Progressif en Trois Étapes qui guide le modèle de la perception au niveau pixel vers la génération de structure logique. Ce curriculum comprend : (1) un Pré-alignement Multi-tâches pour ancrer la compréhension de la structure documentaire par le modèle ; (2) un Fine-Tuning Supervisé (SFT) spécialisé pour standardiser la sortie Markdown d'image complète ; et (3) une Optimisation de Politique Relative par Groupe sous Contrainte de Format (Format-Constrained GRPO), qui utilise l'apprentissage par renforcement pour imposer une validité syntaxique et une intégrité structurelle strictes (par exemple, la fermeture des tableaux, la syntaxe des formules). Des évaluations approfondies sur OmniDocBench v1.5 démontrent que FireRed-OCR atteint des performances de pointe avec un score global de 92,94 %, surpassant significativement des bases de référence solides telles que DeepSeek-OCR 2 et OCRVerse sur les métriques de texte, formules, tableaux et ordre de lecture. Nous ouvrons notre code et les poids de notre modèle en open source pour faciliter le paradigme « Du VLM Généraliste à l'Expert Structurel Spécialisé ».

English

We present FireRed-OCR, a systematic framework to specialize general VLMs into high-performance OCR models. Large Vision-Language Models (VLMs) have demonstrated impressive general capabilities but frequently suffer from ``structural hallucination'' when processing complex documents, limiting their utility in industrial OCR applications. In this paper, we introduce FireRed-OCR, a novel framework designed to transform general-purpose VLMs (based on Qwen3-VL) into pixel-precise structural document parsing experts. To address the scarcity of high-quality structured data, we construct a ``Geometry + Semantics'' Data Factory. Unlike traditional random sampling, our pipeline leverages geometric feature clustering and multi-dimensional tagging to synthesize and curate a highly balanced dataset, effectively handling long-tail layouts and rare document types. Furthermore, we propose a Three-Stage Progressive Training strategy that guides the model from pixel-level perception to logical structure generation. This curriculum includes: (1) Multi-task Pre-alignment to ground the model's understanding of document structure; (2) Specialized SFT for standardizing full-image Markdown output; and (3) Format-Constrained Group Relative Policy Optimization (GRPO), which utilizes reinforcement learning to enforce strict syntactic validity and structural integrity (e.g., table closure, formula syntax). Extensive evaluations on OmniDocBench v1.5 demonstrate that FireRed-OCR achieves state-of-the-art performance with an overall score of 92.94\%, significantly outperforming strong baselines such as DeepSeek-OCR 2 and OCRVerse across text, formula, table, and reading order metrics. We open-source our code and model weights to facilitate the ``General VLM to Specialized Structural Expert'' paradigm.

Rapport Technique FireRed-OCR

FireRed-OCR Technical Report

Résumé

Support