TRivia : Réglage fin auto-supervisé des modèles vision-langage pour la reconnaissance de tableaux

papers.abstract

La reconnaissance de tableaux (TR) vise à transformer des images de tableaux en représentations semi-structurées telles que HTML ou Markdown. En tant que composant central de l'analyse documentaire, la TR a longtemps reposé sur l'apprentissage supervisé, les récents efforts étant dominés par le fine-tuning de modèles vision-langage (VLM) utilisant des données étiquetées. Bien que les VLM aient fait passer la TR au niveau supérieur, repousser les performances nécessite des données étiquetées à grande échelle dont l'obtention est coûteuse. Par conséquent, bien que les modèles propriétaires aient continuellement repoussé les limites de performance, les modèles open-source, souvent entraînés avec des ressources limitées et, en pratique, la seule option viable pour beaucoup en raison des réglementations sur la confidentialité, accusent encore un retard considérable. Pour combler cet écart, nous présentons TRivia, une méthode de fine-tuning auto-supervisée qui permet à des VLM pré-entraînés d'apprendre la TR directement à partir d'images de tableaux non étiquetées issues de sources variées. Fondée sur l'optimisation de politique relative par groupe, TRivia identifie automatiquement les échantillons non étiquetés qui facilitent le plus efficacement l'apprentissage et élimine le besoin d'annotations humaines grâce à un mécanisme de récompense basé sur le question-réponse. Un module guidé par l'attention génère des questions diverses pour chaque image de tableau, et la capacité à interpréter les résultats de reconnaissance et à y répondre correctement fournit un retour pour optimiser le modèle de TR. Ce processus en boucle fermée permet au modèle de TR d'apprendre de manière autonome à reconnaître, structurer et raisonner sur les tableaux sans données étiquetées. En tirant parti de cette pipeline, nous présentons TRivia-3B, un modèle de TR open-source, compact et à la pointe de la technologie, qui surpasse les systèmes existants (par exemple, Gemini 2.5 Pro, MinerU2.5) sur trois benchmarks populaires. Le modèle et le code sont disponibles à l'adresse : https://github.com/opendatalab/TRivia

English

Table recognition (TR) aims to transform table images into semi-structured representations such as HTML or Markdown. As a core component of document parsing, TR has long relied on supervised learning, with recent efforts dominated by fine-tuning vision-language models (VLMs) using labeled data. While VLMs have brought TR to the next level, pushing performance further demands large-scale labeled data that is costly to obtain. Consequently, although proprietary models have continuously pushed the performance boundary, open-source models, often trained with limited resources and, in practice, the only viable option for many due to privacy regulations, still lag far behind. To bridge this gap, we introduce TRivia, a self-supervised fine-tuning method that enables pretrained VLMs to learn TR directly from unlabeled table images in the wild. Built upon Group Relative Policy Optimization, TRivia automatically identifies unlabeled samples that most effectively facilitate learning and eliminates the need for human annotations through a question-answering-based reward mechanism. An attention-guided module generates diverse questions for each table image, and the ability to interpret the recognition results and answer them correctly provides feedback to optimize the TR model. This closed-loop process allows the TR model to autonomously learn to recognize, structure, and reason over tables without labeled data. Leveraging this pipeline, we present TRivia-3B, an open-sourced, compact, and state-of-the-art TR model that surpasses existing systems (e.g., Gemini 2.5 Pro, MinerU2.5) on three popular benchmarks. Model and code are released at: https://github.com/opendatalab/TRivia

TRivia : Réglage fin auto-supervisé des modèles vision-langage pour la reconnaissance de tableaux

TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition

papers.abstract

Support