TexOCR: Verbetering van OCR-modellen voor documenten voor componeerbare pagina-naar-LaTeX-reconstructie

Samenvatting

Bestaande OCR voor documenten richt zich grotendeels op platte tekst of Markdown, waarbij de structurele en uitvoerbare eigenschappen die LaTeX essentieel maken voor wetenschappelijke publicatie, worden genegeerd. Wij bestuderen de reconstructie van wetenschappelijke PDF's op paginaniveau naar compileerbare LaTeX en introduceren TexOCR-Bench, een benchmark, en TexOCR-Train, een grootschalige trainingscorpus, voor deze taak. TexOCR-Bench beschikt over een multidimensionale evaluatiesuite die transcriptienauwkeurigheid, structurele getrouwheid en end-to-end compileerbaarheid gezamenlijk beoordeelt. Gebruikmakend van TexOCR-Train, trainen we een model van 2B parameters, TexOCR, met behulp van supervised fine-tuning (SFT) en reinforcement learning (RL) met verifieerbare beloningen afgeleid van LaTeX-unittests die compileerbaarheid en referentiële integriteit direct afdwingen. Experimenten met 21 vooraanstaande modellen op TexOCR-Bench tonen aan dat bestaande systemen vaak cruciale documentinvarianten schenden, waaronder consistente sectiestructuur, correcte plaatsing van floats en geldige label-referentiekoppelingen, wat de betrouwbaarheid van compilatie en de bruikbaarheid voor downstreamtaken ondermijnt. Onze analyse laat verder zien dat RL met verifieerbare beloningen consistente verbeteringen oplevert ten opzichte van alleen SFT, met name op structurele en compilatiemetrieken.

English

Existing document OCR largely targets plain text or Markdown, discarding the structural and executable properties that make LaTeX essential for scientific publishing. We study page-level reconstruction of scientific PDFs into compilable LaTeX and introduce TexOCR-Bench, a benchmark, and TexOCR-Train, a large-scale training corpus, for this task. TexOCR-Bench features a multi-dimensional evaluation suite that jointly assesses transcription fidelity, structural faithfulness, and end-to-end compilability. Leveraging TexOCR-Train, we train a 2B-parameter model, TexOCR, using supervised fine-tuning (SFT) and reinforcement learning (RL) with verifiable rewards derived from LaTeX unit tests that directly enforce compilability and referential integrity. Experiments across 21 frontier models on TexOCR-Bench show that existing systems frequently violate key document invariants, including consistent section structure, correct float placement, and valid label-reference links, which undermines compilation reliability and downstream usability. Our analysis further reveals that RL with verifiable rewards yields consistent improvements over SFT alone, particularly on structural and compilation metrics.

TexOCR: Verbetering van OCR-modellen voor documenten voor componeerbare pagina-naar-LaTeX-reconstructie

TexOCR: Advancing Document OCR Models for Compilable Page-to-LaTeX Reconstruction

Samenvatting

Support