TRivia: Ajuste fino autosupervisado de modelos de visión y lenguaje para el reconocimiento de tablas

Resumen

El reconocimiento de tablas (TR) tiene como objetivo transformar imágenes de tablas en representaciones semiestructuradas como HTML o Markdown. Como componente central del análisis de documentos, el TR ha dependido durante mucho tiempo del aprendizaje supervisado, con esfuerzos recientes dominados por el ajuste fino de modelos de visión y lenguaje (VLM) utilizando datos etiquetados. Si bien los VLM han llevado el TR al siguiente nivel, impulsar aún más el rendimiento requiere datos etiquetados a gran escala que son costosos de obtener. En consecuencia, aunque los modelos propietarios han ampliado continuamente los límites de rendimiento, los modelos de código abierto, a menudo entrenados con recursos limitados y, en la práctica, la única opción viable para muchos debido a las regulaciones de privacidad, aún están muy por detrás. Para cerrar esta brecha, presentamos TRivia, un método de ajuste fino auto-supervisado que permite a los VLM preentrenados aprender TR directamente a partir de imágenes de tablas no etiquetadas en entornos reales. Basado en Group Relative Policy Optimization, TRivia identifica automáticamente las muestras no etiquetadas que facilitan más efectivamente el aprendizaje y elimina la necesidad de anotaciones humanas mediante un mecanismo de recompensa basado en preguntas y respuestas. Un módulo guiado por atención genera preguntas diversas para cada imagen de tabla, y la capacidad de interpretar los resultados del reconocimiento y responderlas correctamente proporciona retroalimentación para optimizar el modelo TR. Este proceso de bucle cerrado permite que el modelo TR aprenda autónomamente a reconocer, estructurar y razonar sobre tablas sin datos etiquetados. Aprovechando esta pipeline, presentamos TRivia-3B, un modelo TR de código abierto, compacto y de vanguardia que supera a los sistemas existentes (por ejemplo, Gemini 2.5 Pro, MinerU2.5) en tres benchmarks populares. El modelo y el código se publican en: https://github.com/opendatalab/TRivia

English

Table recognition (TR) aims to transform table images into semi-structured representations such as HTML or Markdown. As a core component of document parsing, TR has long relied on supervised learning, with recent efforts dominated by fine-tuning vision-language models (VLMs) using labeled data. While VLMs have brought TR to the next level, pushing performance further demands large-scale labeled data that is costly to obtain. Consequently, although proprietary models have continuously pushed the performance boundary, open-source models, often trained with limited resources and, in practice, the only viable option for many due to privacy regulations, still lag far behind. To bridge this gap, we introduce TRivia, a self-supervised fine-tuning method that enables pretrained VLMs to learn TR directly from unlabeled table images in the wild. Built upon Group Relative Policy Optimization, TRivia automatically identifies unlabeled samples that most effectively facilitate learning and eliminates the need for human annotations through a question-answering-based reward mechanism. An attention-guided module generates diverse questions for each table image, and the ability to interpret the recognition results and answer them correctly provides feedback to optimize the TR model. This closed-loop process allows the TR model to autonomously learn to recognize, structure, and reason over tables without labeled data. Leveraging this pipeline, we present TRivia-3B, an open-sourced, compact, and state-of-the-art TR model that surpasses existing systems (e.g., Gemini 2.5 Pro, MinerU2.5) on three popular benchmarks. Model and code are released at: https://github.com/opendatalab/TRivia