TexOCR: Avançando Modelos de OCR de Documentos para Reconstrução Página-para-LaTeX Compilável

Resumo

A OCR de documentos existente visa principalmente texto simples ou Markdown, descartando as propriedades estruturais e executáveis que tornam o LaTeX essencial para a publicação científica. Estudamos a reconstrução a nível de página de PDFs científicos em LaTeX compilável e introduzimos o TexOCR-Bench, um benchmark, e o TexOCR-Train, um corpus de treino em larga escala, para esta tarefa. O TexOCR-Bench apresenta uma suite de avaliação multidimensional que avalia conjuntamente a fidelidade da transcrição, a fidelidade estrutural e a compilabilidade de ponta a ponta. Aproveitando o TexOCR-Train, treinamos um modelo de 2B de parâmetros, TexOCR, usando *fine-tuning* supervisionado (SFT) e aprendizagem por reforço (RL) com recompensas verificáveis derivadas de testes unitários de LaTeX que aplicam diretamente a compilabilidade e a integridade referencial. Experiências com 21 modelos de ponta no TexOCR-Bench mostram que os sistemas existentes violam frequentemente invariantes-chave do documento, incluindo estrutura consistente de secções, colocação correta de *floats* e links válidos de etiqueta-referência, o que prejudica a fiabilidade de compilação e a usabilidade em tarefas subsequentes. A nossa análise revela ainda que o RL com recompensas verificáveis produz melhorias consistentes face ao uso exclusivo de SFT, particularmente em métricas estruturais e de compilação.

English

Existing document OCR largely targets plain text or Markdown, discarding the structural and executable properties that make LaTeX essential for scientific publishing. We study page-level reconstruction of scientific PDFs into compilable LaTeX and introduce TexOCR-Bench, a benchmark, and TexOCR-Train, a large-scale training corpus, for this task. TexOCR-Bench features a multi-dimensional evaluation suite that jointly assesses transcription fidelity, structural faithfulness, and end-to-end compilability. Leveraging TexOCR-Train, we train a 2B-parameter model, TexOCR, using supervised fine-tuning (SFT) and reinforcement learning (RL) with verifiable rewards derived from LaTeX unit tests that directly enforce compilability and referential integrity. Experiments across 21 frontier models on TexOCR-Bench show that existing systems frequently violate key document invariants, including consistent section structure, correct float placement, and valid label-reference links, which undermines compilation reliability and downstream usability. Our analysis further reveals that RL with verifiable rewards yields consistent improvements over SFT alone, particularly on structural and compilation metrics.

TexOCR: Avançando Modelos de OCR de Documentos para Reconstrução Página-para-LaTeX Compilável

TexOCR: Advancing Document OCR Models for Compilable Page-to-LaTeX Reconstruction

Resumo

Support