TRivia: Ajuste Fino Autossupervisionado de Modelos de Visão Computacional e Linguagem para Reconhecimento de Tabelas

Resumo

A reconhecção de tabelas (TR) tem como objetivo transformar imagens de tabelas em representações semi-estruturadas, como HTML ou Markdown. Sendo um componente central da análise de documentos, a TR sempre dependeu da aprendizagem supervisionada, com esforços recentes dominados pelo ajuste fino de modelos visão-linguagem (VLMs) usando dados rotulados. Embora os VLMs tenham elevado a TR a um novo patamar, avançar ainda mais o desempenho exige dados rotulados em larga escala, que são dispendiosos de obter. Consequentemente, embora os modelos proprietários tenham continuamente expandido os limites de desempenho, os modelos de código aberto, frequentemente treinados com recursos limitados e, na prática, a única opção viável para muitos devido a regulamentações de privacidade, ainda ficam muito aquém. Para colmatar esta lacuna, introduzimos a TRivia, um método de ajuste fino auto-supervisionado que permite a VLMs pré-treinados aprenderem TR diretamente a partir de imagens de tabelas não rotuladas do mundo real. Baseando-se no Group Relative Policy Optimization, a TRivia identifica automaticamente amostras não rotuladas que mais eficazmente facilitam a aprendizagem e elimina a necessidade de anotações humanas através de um mecanismo de recompensa baseado em perguntas e respostas. Um módulo guiado por atenção gera perguntas diversificadas para cada imagem de tabela, e a capacidade de interpretar os resultados do reconhecimento e respondê-las corretamente fornece *feedback* para otimizar o modelo de TR. Este processo em ciclo fechado permite que o modelo de TR aprenda autonomamente a reconhecer, estruturar e raciocinar sobre tabelas sem dados rotulados. Aproveitando este *pipeline*, apresentamos o TRivia-3B, um modelo de TR de código aberto, compacto e de última geração que supera os sistemas existentes (por exemplo, Gemini 2.5 Pro, MinerU2.5) em três *benchmarks* populares. O modelo e o código estão disponíveis em: https://github.com/opendatalab/TRivia

English

Table recognition (TR) aims to transform table images into semi-structured representations such as HTML or Markdown. As a core component of document parsing, TR has long relied on supervised learning, with recent efforts dominated by fine-tuning vision-language models (VLMs) using labeled data. While VLMs have brought TR to the next level, pushing performance further demands large-scale labeled data that is costly to obtain. Consequently, although proprietary models have continuously pushed the performance boundary, open-source models, often trained with limited resources and, in practice, the only viable option for many due to privacy regulations, still lag far behind. To bridge this gap, we introduce TRivia, a self-supervised fine-tuning method that enables pretrained VLMs to learn TR directly from unlabeled table images in the wild. Built upon Group Relative Policy Optimization, TRivia automatically identifies unlabeled samples that most effectively facilitate learning and eliminates the need for human annotations through a question-answering-based reward mechanism. An attention-guided module generates diverse questions for each table image, and the ability to interpret the recognition results and answer them correctly provides feedback to optimize the TR model. This closed-loop process allows the TR model to autonomously learn to recognize, structure, and reason over tables without labeled data. Leveraging this pipeline, we present TRivia-3B, an open-sourced, compact, and state-of-the-art TR model that surpasses existing systems (e.g., Gemini 2.5 Pro, MinerU2.5) on three popular benchmarks. Model and code are released at: https://github.com/opendatalab/TRivia