Rapporto Tecnico di FireRed-OCR

Abstract

Presentiamo FireRed-OCR, un framework sistematico per specializzare i VLM generici in modelli OCR ad alte prestazioni. I Large Vision-Language Models (VLM) hanno dimostrato capacità generali impressionanti, ma soffrono frequentemente di "allucinazioni strutturali" durante l'elaborazione di documenti complessi, limitando la loro utilità nelle applicazioni OCR industriali. In questo articolo, introduciamo FireRed-OCR, un nuovo framework progettato per trasformare i VLM generici (basati su Qwen3-VL) in esperti di parsing strutturale di documenti con precisione a livello di pixel. Per far fronte alla scarsità di dati strutturati di alta qualità, abbiamo costruito una "Fabbrica di Dati Geometria + Semantica". A differenza del campionamento casuale tradizionale, la nostra pipeline sfrutta il clustering delle caratteristiche geometriche e la marcatura multidimensionale per sintetizzare e curare un dataset altamente bilanciato, gestendo efficacemente layout a coda lunga e tipi di documento rari. Inoltre, proponiamo una strategia di Addestramento Progressivo in Tre Fasi che guida il modello dalla percezione a livello di pixel alla generazione della struttura logica. Questo percorso include: (1) Pre-allineamento multi-task per ancorare la comprensione della struttura del documento da parte del modello; (2) SFT Specializzato per standardizzare l'output Markdown a immagine intera; e (3) Format-Constrained Group Relative Policy Optimization (GRPO), che utilizza l'apprendimento per rinforzo per imporre una rigorosa validità sintattica e integrità strutturale (ad esempio, chiusura delle tabelle, sintassi delle formule). Valutazioni estensive su OmniDocBench v1.5 dimostrano che FireRed-OCR raggiunge prestazioni all'avanguardia con un punteggio complessivo del 92,94%, superando significativamente baseline solide come DeepSeek-OCR 2 e OCRVerse attraverso metriche su testo, formule, tabelle e ordine di lettura. Rendiamo open-source il nostro codice e i pesi del modello per facilitare il paradigma "Da VLM Generale a Esperto Strutturale Specializzato".

English

We present FireRed-OCR, a systematic framework to specialize general VLMs into high-performance OCR models. Large Vision-Language Models (VLMs) have demonstrated impressive general capabilities but frequently suffer from ``structural hallucination'' when processing complex documents, limiting their utility in industrial OCR applications. In this paper, we introduce FireRed-OCR, a novel framework designed to transform general-purpose VLMs (based on Qwen3-VL) into pixel-precise structural document parsing experts. To address the scarcity of high-quality structured data, we construct a ``Geometry + Semantics'' Data Factory. Unlike traditional random sampling, our pipeline leverages geometric feature clustering and multi-dimensional tagging to synthesize and curate a highly balanced dataset, effectively handling long-tail layouts and rare document types. Furthermore, we propose a Three-Stage Progressive Training strategy that guides the model from pixel-level perception to logical structure generation. This curriculum includes: (1) Multi-task Pre-alignment to ground the model's understanding of document structure; (2) Specialized SFT for standardizing full-image Markdown output; and (3) Format-Constrained Group Relative Policy Optimization (GRPO), which utilizes reinforcement learning to enforce strict syntactic validity and structural integrity (e.g., table closure, formula syntax). Extensive evaluations on OmniDocBench v1.5 demonstrate that FireRed-OCR achieves state-of-the-art performance with an overall score of 92.94\%, significantly outperforming strong baselines such as DeepSeek-OCR 2 and OCRVerse across text, formula, table, and reading order metrics. We open-source our code and model weights to facilitate the ``General VLM to Specialized Structural Expert'' paradigm.

Rapporto Tecnico di FireRed-OCR

FireRed-OCR Technical Report

Abstract

Support