Visual-TableQA: Open-Domain-Benchmark für das logische Schließen über Tabellenbilder
Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images
September 9, 2025
papers.authors: Boammani Aser Lompo, Marc Haraoui
cs.AI
papers.abstract
Visuelles Schließen über strukturierte Daten wie Tabellen ist eine entscheidende Fähigkeit für moderne Vision-Language-Modelle (VLMs), doch aktuelle Benchmarks bleiben in Bezug auf Umfang, Vielfalt oder Tiefe des Schließens begrenzt, insbesondere bei gerenderten Tabellenbildern. Um diese Lücke zu schließen, stellen wir Visual-TableQA vor, ein groß angelegtes, domänenoffenes multimodales Datenset, das speziell zur Bewertung und Verbesserung des visuellen Schließens über komplexe Tabellendaten entwickelt wurde. Unsere Erzeugungspipeline ist modular, skalierbar und vollständig autonom und umfasst mehrere Reasoning-LLMs, die in verschiedenen Rollen zusammenarbeiten: Erzeugung, Validierung und Inspiration. Visual-TableQA besteht aus 2,5k reich strukturierten LaTeX-gerenderten Tabellen und 6k schlussfolgerungsintensiven QA-Paaren, die alle zu Kosten von unter 100 USD produziert wurden. Um Vielfalt und Kreativität zu fördern, führt unsere Pipeline eine Multi-Modell-kollaborative Datengenerierung durch Cross-Model-Prompting (‚Inspiration‘) und LLM-Jury-Filterung durch. Stärkere Modelle legen Layouts und Themen fest, die schwächere Modelle ausarbeiten, wodurch gemeinsam diverse Schließmuster und visuelle Strukturen in das Datenset destilliert werden. Empirische Ergebnisse zeigen, dass auf Visual-TableQA feinabgestimmte Modelle robust auf externe Benchmarks generalisieren und trotz des synthetischen Charakters des Datensets mehrere proprietäre Modelle übertreffen. Die vollständige Pipeline und Ressourcen sind öffentlich unter https://github.com/AI-4-Everyone/Visual-TableQA verfügbar.
English
Visual reasoning over structured data such as tables is a critical capability
for modern vision-language models (VLMs), yet current benchmarks remain limited
in scale, diversity, or reasoning depth, especially when it comes to rendered
table images. Addressing this gap, we introduce Visual-TableQA, a large-scale,
open-domain multimodal dataset specifically designed to evaluate and enhance
visual reasoning over complex tabular data. Our generation pipeline is modular,
scalable, and fully autonomous, involving multiple reasoning LLMs collaborating
across distinct roles: generation, validation, and inspiration. Visual-TableQA
comprises 2.5k richly structured LaTeX-rendered tables and 6k
reasoning-intensive QA pairs, all produced at a cost of under USD 100. To
promote diversity and creativity, our pipeline performs multi-model
collaborative data generation via cross-model prompting ('inspiration') and
LLM-jury filtering. Stronger models seed layouts and topics that weaker models
elaborate, collectively distilling diverse reasoning patterns and visual
structures into the dataset. Empirical results show that models fine-tuned on
Visual-TableQA generalize robustly to external benchmarks, outperforming
several proprietary models despite the dataset's synthetic nature. The full
pipeline and resources are publicly available at
https://github.com/AI-4-Everyone/Visual-TableQA.