TexOCR: Avanzamento dei modelli OCR per documenti nella ricostruzione compilabile da pagina a LaTeX
TexOCR: Advancing Document OCR Models for Compilable Page-to-LaTeX Reconstruction
April 24, 2026
Autori: Chengye Wang, Lin Fu, Zexi Kuang, Yilun Zhao
cs.AI
Abstract
L'OCR per documenti esistenti si concentra prevalentemente su testo semplice o Markdown, tralasciando le proprietà strutturali ed eseguibili che rendono LaTeX essenziale per la pubblicazione scientifica. Studiamo la ricostruzione a livello di pagina di PDF scientifici in LaTeX compilabile e introduciamo TexOCR-Bench, un benchmark, e TexOCR-Train, un corpus di addestramento su larga scala, per questo compito. TexOCR-Bench presenta una suite di valutazione multidimensionale che valuta congiuntamente la fedeltà della trascrizione, la correttezza strutturale e la compilabilità end-to-end. Sfruttando TexOCR-Train, addestriamo un modello da 2 miliardi di parametri, TexOCR, utilizzando fine-tuning supervisionato (SFT) e apprendimento per rinforzo (RL) con ricompense verificabili derivate da test unitari LaTeX che impongono direttamente la compilabilità e l'integrità referenziale. Esperimenti condotti su 21 modelli all'avanguardia utilizzando TexOCR-Bench dimostrano che i sistemi esistenti violano frequentemente invarianti documentali chiave, inclusa la coerenza della struttura delle sezioni, il corretto posizionamento dei float e i collegamenti validi tra etichette e riferimenti, il che mina l'affidabilità della compilazione e l'usabilità downstream. La nostra analisi rivela inoltre che l'RL con ricompense verificabili produce miglioramenti consistenti rispetto al solo SFT, in particolare sulle metriche strutturali e di compilazione.
English
Existing document OCR largely targets plain text or Markdown, discarding the structural and executable properties that make LaTeX essential for scientific publishing. We study page-level reconstruction of scientific PDFs into compilable LaTeX and introduce TexOCR-Bench, a benchmark, and TexOCR-Train, a large-scale training corpus, for this task. TexOCR-Bench features a multi-dimensional evaluation suite that jointly assesses transcription fidelity, structural faithfulness, and end-to-end compilability. Leveraging TexOCR-Train, we train a 2B-parameter model, TexOCR, using supervised fine-tuning (SFT) and reinforcement learning (RL) with verifiable rewards derived from LaTeX unit tests that directly enforce compilability and referential integrity. Experiments across 21 frontier models on TexOCR-Bench show that existing systems frequently violate key document invariants, including consistent section structure, correct float placement, and valid label-reference links, which undermines compilation reliability and downstream usability. Our analysis further reveals that RL with verifiable rewards yields consistent improvements over SFT alone, particularly on structural and compilation metrics.