ChatPaper.aiChatPaper

TRivia: Fine-tuning auto-supervisionato di modelli visione-linguaggio per il riconoscimento di tabelle

TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition

December 1, 2025
Autori: Junyuan Zhang, Bin Wang, Qintong Zhang, Fan Wu, Zichen Wen, Jialin Lu, Junjie Shan, Ziqi Zhao, Shuya Yang, Ziling Wang, Ziyang Miao, Huaping Zhong, Yuhang Zang, Xiaoyi Dong, Ka-Ho Chow, Conghui He
cs.AI

Abstract

La riconoscimento di tabelle (TR) mira a trasformare immagini di tabelli in rappresentazioni semi-strutturate come HTML o Markdown. Come componente fondamentale del parsing documentale, il TR si è a lungo basato sull'apprendimento supervisionato, con recenti sforzi dominati dal fine-tuning di modelli vision-language (VLM) utilizzando dati etichettati. Sebbene i VLM abbiano portato il TR a un livello superiore, spingere ulteriormente le prestazioni richiede dati etichettati su larga scala che sono costosi da ottenere. Di conseguenza, sebbene i modelli proprietari abbiano continuamente spinto i limiti delle prestazioni, i modelli open-source, spesso addestrati con risorse limitate e, nella pratica, l'unica opzione praticabile per molti a causa delle normative sulla privacy, rimangono ancora molto indietro. Per colmare questa lacuna, introduciamo TRivia, un metodo di fine-tuning auto-supervisionato che consente ai VLM preaddestrati di apprendere il TR direttamente da immagini di tabelle non etichettate in contesti reali. Basato sul Group Relative Policy Optimization, TRivia identifica automaticamente campioni non etichettati che facilitano più efficacemente l'apprendimento ed elimina la necessità di annotazioni umane attraverso un meccanismo di ricompensa basato su domande e risposte. Un modulo guidato dall'attenzione genera domande diversificate per ogni immagine di tabella, e la capacità di interpretare i risultati del riconoscimento e rispondere correttamente fornisce feedback per ottimizzare il modello TR. Questo processo a ciclo chiuso consente al modello TR di apprendere autonomamente a riconoscere, strutturare e ragionare sulle tabelle senza dati etichettati. Sfruttando questa pipeline, presentiamo TRivia-3B, un modello TR open-source, compatto e all'avanguardia che supera i sistemi esistenti (ad esempio, Gemini 2.5 Pro, MinerU2.5) su tre benchmark popolari. Modello e codice sono rilasciati su: https://github.com/opendatalab/TRivia
English
Table recognition (TR) aims to transform table images into semi-structured representations such as HTML or Markdown. As a core component of document parsing, TR has long relied on supervised learning, with recent efforts dominated by fine-tuning vision-language models (VLMs) using labeled data. While VLMs have brought TR to the next level, pushing performance further demands large-scale labeled data that is costly to obtain. Consequently, although proprietary models have continuously pushed the performance boundary, open-source models, often trained with limited resources and, in practice, the only viable option for many due to privacy regulations, still lag far behind. To bridge this gap, we introduce TRivia, a self-supervised fine-tuning method that enables pretrained VLMs to learn TR directly from unlabeled table images in the wild. Built upon Group Relative Policy Optimization, TRivia automatically identifies unlabeled samples that most effectively facilitate learning and eliminates the need for human annotations through a question-answering-based reward mechanism. An attention-guided module generates diverse questions for each table image, and the ability to interpret the recognition results and answer them correctly provides feedback to optimize the TR model. This closed-loop process allows the TR model to autonomously learn to recognize, structure, and reason over tables without labeled data. Leveraging this pipeline, we present TRivia-3B, an open-sourced, compact, and state-of-the-art TR model that surpasses existing systems (e.g., Gemini 2.5 Pro, MinerU2.5) on three popular benchmarks. Model and code are released at: https://github.com/opendatalab/TRivia
PDF71December 4, 2025