TexOCR: Avanzamento dei modelli OCR per documenti nella ricostruzione compilabile da pagina a LaTeX

Abstract

L'OCR per documenti esistenti si concentra prevalentemente su testo semplice o Markdown, tralasciando le proprietà strutturali ed eseguibili che rendono LaTeX essenziale per la pubblicazione scientifica. Studiamo la ricostruzione a livello di pagina di PDF scientifici in LaTeX compilabile e introduciamo TexOCR-Bench, un benchmark, e TexOCR-Train, un corpus di addestramento su larga scala, per questo compito. TexOCR-Bench presenta una suite di valutazione multidimensionale che valuta congiuntamente la fedeltà della trascrizione, la correttezza strutturale e la compilabilità end-to-end. Sfruttando TexOCR-Train, addestriamo un modello da 2 miliardi di parametri, TexOCR, utilizzando fine-tuning supervisionato (SFT) e apprendimento per rinforzo (RL) con ricompense verificabili derivate da test unitari LaTeX che impongono direttamente la compilabilità e l'integrità referenziale. Esperimenti condotti su 21 modelli all'avanguardia utilizzando TexOCR-Bench dimostrano che i sistemi esistenti violano frequentemente invarianti documentali chiave, inclusa la coerenza della struttura delle sezioni, il corretto posizionamento dei float e i collegamenti validi tra etichette e riferimenti, il che mina l'affidabilità della compilazione e l'usabilità downstream. La nostra analisi rivela inoltre che l'RL con ricompense verificabili produce miglioramenti consistenti rispetto al solo SFT, in particolare sulle metriche strutturali e di compilazione.

English

Existing document OCR largely targets plain text or Markdown, discarding the structural and executable properties that make LaTeX essential for scientific publishing. We study page-level reconstruction of scientific PDFs into compilable LaTeX and introduce TexOCR-Bench, a benchmark, and TexOCR-Train, a large-scale training corpus, for this task. TexOCR-Bench features a multi-dimensional evaluation suite that jointly assesses transcription fidelity, structural faithfulness, and end-to-end compilability. Leveraging TexOCR-Train, we train a 2B-parameter model, TexOCR, using supervised fine-tuning (SFT) and reinforcement learning (RL) with verifiable rewards derived from LaTeX unit tests that directly enforce compilability and referential integrity. Experiments across 21 frontier models on TexOCR-Bench show that existing systems frequently violate key document invariants, including consistent section structure, correct float placement, and valid label-reference links, which undermines compilation reliability and downstream usability. Our analysis further reveals that RL with verifiable rewards yields consistent improvements over SFT alone, particularly on structural and compilation metrics.

TexOCR: Avanzamento dei modelli OCR per documenti nella ricostruzione compilabile da pagina a LaTeX

TexOCR: Advancing Document OCR Models for Compilable Page-to-LaTeX Reconstruction

Abstract

Support