TexOCR: Avançando Modelos de OCR de Documentos para Reconstrução Página-para-LaTeX Compilável
TexOCR: Advancing Document OCR Models for Compilable Page-to-LaTeX Reconstruction
April 24, 2026
Autores: Chengye Wang, Lin Fu, Zexi Kuang, Yilun Zhao
cs.AI
Resumo
A OCR de documentos existente visa principalmente texto simples ou Markdown, descartando as propriedades estruturais e executáveis que tornam o LaTeX essencial para a publicação científica. Estudamos a reconstrução a nível de página de PDFs científicos em LaTeX compilável e introduzimos o TexOCR-Bench, um benchmark, e o TexOCR-Train, um corpus de treino em larga escala, para esta tarefa. O TexOCR-Bench apresenta uma suite de avaliação multidimensional que avalia conjuntamente a fidelidade da transcrição, a fidelidade estrutural e a compilabilidade de ponta a ponta. Aproveitando o TexOCR-Train, treinamos um modelo de 2B de parâmetros, TexOCR, usando *fine-tuning* supervisionado (SFT) e aprendizagem por reforço (RL) com recompensas verificáveis derivadas de testes unitários de LaTeX que aplicam diretamente a compilabilidade e a integridade referencial. Experiências com 21 modelos de ponta no TexOCR-Bench mostram que os sistemas existentes violam frequentemente invariantes-chave do documento, incluindo estrutura consistente de secções, colocação correta de *floats* e links válidos de etiqueta-referência, o que prejudica a fiabilidade de compilação e a usabilidade em tarefas subsequentes. A nossa análise revela ainda que o RL com recompensas verificáveis produz melhorias consistentes face ao uso exclusivo de SFT, particularmente em métricas estruturais e de compilação.
English
Existing document OCR largely targets plain text or Markdown, discarding the structural and executable properties that make LaTeX essential for scientific publishing. We study page-level reconstruction of scientific PDFs into compilable LaTeX and introduce TexOCR-Bench, a benchmark, and TexOCR-Train, a large-scale training corpus, for this task. TexOCR-Bench features a multi-dimensional evaluation suite that jointly assesses transcription fidelity, structural faithfulness, and end-to-end compilability. Leveraging TexOCR-Train, we train a 2B-parameter model, TexOCR, using supervised fine-tuning (SFT) and reinforcement learning (RL) with verifiable rewards derived from LaTeX unit tests that directly enforce compilability and referential integrity. Experiments across 21 frontier models on TexOCR-Bench show that existing systems frequently violate key document invariants, including consistent section structure, correct float placement, and valid label-reference links, which undermines compilation reliability and downstream usability. Our analysis further reveals that RL with verifiable rewards yields consistent improvements over SFT alone, particularly on structural and compilation metrics.