TRivia: Selbstüberwachtes Feintuning von Bild-Sprach-Modellen für Tabellenerkennung

Zusammenfassung

Tabellenerkennung (TR) zielt darauf ab, Tabellenbilder in halbstrukturierte Darstellungen wie HTML oder Markdown zu überführen. Als Kernkomponente der Dokumentenanalyse setzt TR seit langem auf überwachtes Lernen, wobei aktuelle Bestrebungen von Feinabstimmungen vortrainierter Vision-Language-Modelle (VLMs) mit annotierten Daten dominiert werden. Obwohl VLMs die TR auf ein neues Niveau gehoben haben, erfordert eine weitere Leistungssteigerung große Mengen annotierter Daten, deren Beschaffung kostspielig ist. Infolgedessen liegen Open-Source-Modelle – die oft mit begrenzten Ressourcen trainiert werden und in der Praxis aufgrund von Datenschutzvorschriften für viele die einzig praktikable Option darstellen – trotz kontinuierlicher Leistungssteigerungen proprietärer Modelle noch immer deutlich zurück. Um diese Lücke zu schließen, stellen wir TRivia vor, eine selbstüberwachte Feinabstimmungsmethode, die vortrainierten VLMs ermöglicht, TR direkt aus nicht annotierten Tabellenbildern aus realen Anwendungen zu erlernen. Aufbauend auf Group Relative Policy Optimization identifiziert TRivia automatisch nicht annotierte Stichproben, die den Lernprozess am effektivsten fördern, und eliminiert den Bedarf an menschlichen Annotationen durch einen belohnungsbasierten Frage-Antwort-Mechanismus. Ein aufmerksamkeitsgesteuertes Modul generiert diverse Fragen für jedes Tabellenbild, und die Fähigkeit, die Erkennungsergebnisse zu interpretieren und diese korrekt zu beantworten, liefert Feedback zur Optimierung des TR-Modells. Dieser geschlossene Regelkreis ermöglicht es dem TR-Modell, autonom zu erlernen, Tabellen zu erkennen, zu strukturieren und über sie zu schlussfolgern – ohne annotierte Daten. Mit dieser Pipeline präsentieren wir TRivia-3B, ein quelloffenes, kompaktes und state-of-the-art TR-Modell, das bestehende Systeme (z.B. Gemini 2.5 Pro, MinerU2.5) auf drei verbreiteten Benchmarks übertrifft. Modell und Code sind verfügbar unter: https://github.com/opendatalab/TRivia

English

Table recognition (TR) aims to transform table images into semi-structured representations such as HTML or Markdown. As a core component of document parsing, TR has long relied on supervised learning, with recent efforts dominated by fine-tuning vision-language models (VLMs) using labeled data. While VLMs have brought TR to the next level, pushing performance further demands large-scale labeled data that is costly to obtain. Consequently, although proprietary models have continuously pushed the performance boundary, open-source models, often trained with limited resources and, in practice, the only viable option for many due to privacy regulations, still lag far behind. To bridge this gap, we introduce TRivia, a self-supervised fine-tuning method that enables pretrained VLMs to learn TR directly from unlabeled table images in the wild. Built upon Group Relative Policy Optimization, TRivia automatically identifies unlabeled samples that most effectively facilitate learning and eliminates the need for human annotations through a question-answering-based reward mechanism. An attention-guided module generates diverse questions for each table image, and the ability to interpret the recognition results and answer them correctly provides feedback to optimize the TR model. This closed-loop process allows the TR model to autonomously learn to recognize, structure, and reason over tables without labeled data. Leveraging this pipeline, we present TRivia-3B, an open-sourced, compact, and state-of-the-art TR model that surpasses existing systems (e.g., Gemini 2.5 Pro, MinerU2.5) on three popular benchmarks. Model and code are released at: https://github.com/opendatalab/TRivia