TRivia: Zelf-gesuperviseerd Fine-tunen van Vision-Language Modellen voor Tabelherkenning
TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition
December 1, 2025
Auteurs: Junyuan Zhang, Bin Wang, Qintong Zhang, Fan Wu, Zichen Wen, Jialin Lu, Junjie Shan, Ziqi Zhao, Shuya Yang, Ziling Wang, Ziyang Miao, Huaping Zhong, Yuhang Zang, Xiaoyi Dong, Ka-Ho Chow, Conghui He
cs.AI
Samenvatting
Tabelherkenning (TR) heeft als doel om tabelafbeeldingen om te zetten in semi-gestructureerde representaties, zoals HTML of Markdown. Als kernonderdeel van documentparsing heeft TR lange tijd vertrouwd op supervised learning, waarbij recente inspanningen worden gedomineerd door het fine-tunen van vision-language modellen (VLM's) met gelabelde data. Hoewel VLM's TR naar een hoger niveau hebben getild, vereist het verder opvoeren van de prestaties grootschalige gelabelde data die kostbaar is om te verkrijgen. Hierdoor lopen open-source modellen, die vaak met beperkte middelen worden getraind en in de praktijk voor velen de enige haalbare optie zijn vanwege privacyregelgeving, nog ver achter op propriëtaire modellen die de prestatiegrens continu verleggen. Om deze kloof te overbruggen, introduceren we TRivia, een zelfgesuperviseerde fine-tuning methode die voorgetrainde VLM's in staat stelt om TR rechtstreeks te leren van ongelabelde tabelafbeeldingen uit de praktijk. Gebaseerd op Group Relative Policy Optimization, identificeert TRivia automatisch ongelabelde samples die het leren het meest effectief faciliteren en elimineert het de noodzaak voor menselijke annotaties via een op vraag-antwoord gebaseerd beloningsmechanisme. Een op aandacht geleide module genereert diverse vragen voor elke tabelafbeelding, en het vermogen om de herkenningsresultaten te interpreteren en deze correct te beantwoorden, geeft feedback om het TR-model te optimaliseren. Dit gesloten proces stelt het TR-model in staat om autonoom te leren tabellen te herkennen, structureren en redeneren zonder gelabelde data. Gebruikmakend van deze pijplijn, presenteren we TRivia-3B, een open-source, compact en state-of-the-art TR-model dat superieure prestaties levert ten opzichte van bestaande systemen (zoals Gemini 2.5 Pro, MinerU2.5) op drie populaire benchmarks. Model en code zijn vrijgegeven op: https://github.com/opendatalab/TRivia
English
Table recognition (TR) aims to transform table images into semi-structured representations such as HTML or Markdown. As a core component of document parsing, TR has long relied on supervised learning, with recent efforts dominated by fine-tuning vision-language models (VLMs) using labeled data. While VLMs have brought TR to the next level, pushing performance further demands large-scale labeled data that is costly to obtain. Consequently, although proprietary models have continuously pushed the performance boundary, open-source models, often trained with limited resources and, in practice, the only viable option for many due to privacy regulations, still lag far behind. To bridge this gap, we introduce TRivia, a self-supervised fine-tuning method that enables pretrained VLMs to learn TR directly from unlabeled table images in the wild. Built upon Group Relative Policy Optimization, TRivia automatically identifies unlabeled samples that most effectively facilitate learning and eliminates the need for human annotations through a question-answering-based reward mechanism. An attention-guided module generates diverse questions for each table image, and the ability to interpret the recognition results and answer them correctly provides feedback to optimize the TR model. This closed-loop process allows the TR model to autonomously learn to recognize, structure, and reason over tables without labeled data. Leveraging this pipeline, we present TRivia-3B, an open-sourced, compact, and state-of-the-art TR model that surpasses existing systems (e.g., Gemini 2.5 Pro, MinerU2.5) on three popular benchmarks. Model and code are released at: https://github.com/opendatalab/TRivia