Visual-TableQA: Open-Domain Benchmark voor Redeneren over Tabelafbeeldingen
Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images
September 9, 2025
Auteurs: Boammani Aser Lompo, Marc Haraoui
cs.AI
Samenvatting
Visueel redeneren over gestructureerde gegevens zoals tabellen is een cruciale vaardigheid voor moderne visie-taalmodellen (VLMs), maar huidige benchmarks blijven beperkt in schaal, diversiteit of redeneerdiepte, vooral als het gaat om gerenderde tabelafbeeldingen. Om dit gat te dichten, introduceren we Visual-TableQA, een grootschalige, open-domein multimodale dataset die specifiek is ontworpen om visueel redeneren over complexe tabelgegevens te evalueren en te verbeteren. Onze generatiepijplijn is modulair, schaalbaar en volledig autonoom, waarbij meerdere redeneer-LLM's samenwerken in verschillende rollen: generatie, validatie en inspiratie. Visual-TableQA omvat 2,5k rijk gestructureerde LaTeX-gerenderde tabellen en 6k intensieve redeneer-vraag-antwoordparen, allemaal geproduceerd tegen een kosten van minder dan USD 100. Om diversiteit en creativiteit te bevorderen, voert onze pijplijn multi-model collaboratieve gegevensgeneratie uit via cross-model prompting ('inspiratie') en LLM-juryfiltering. Sterkere modellen zaaien lay-outs en onderwerpen die zwakkere modellen uitwerken, waardoor diverse redeneerpatronen en visuele structuren gezamenlijk in de dataset worden gedestilleerd. Empirische resultaten tonen aan dat modellen die zijn afgestemd op Visual-TableQA robuust generaliseren naar externe benchmarks, waarbij ze verschillende propriëtaire modellen overtreffen ondanks de synthetische aard van de dataset. De volledige pijplijn en bronnen zijn publiekelijk beschikbaar op https://github.com/AI-4-Everyone/Visual-TableQA.
English
Visual reasoning over structured data such as tables is a critical capability
for modern vision-language models (VLMs), yet current benchmarks remain limited
in scale, diversity, or reasoning depth, especially when it comes to rendered
table images. Addressing this gap, we introduce Visual-TableQA, a large-scale,
open-domain multimodal dataset specifically designed to evaluate and enhance
visual reasoning over complex tabular data. Our generation pipeline is modular,
scalable, and fully autonomous, involving multiple reasoning LLMs collaborating
across distinct roles: generation, validation, and inspiration. Visual-TableQA
comprises 2.5k richly structured LaTeX-rendered tables and 6k
reasoning-intensive QA pairs, all produced at a cost of under USD 100. To
promote diversity and creativity, our pipeline performs multi-model
collaborative data generation via cross-model prompting ('inspiration') and
LLM-jury filtering. Stronger models seed layouts and topics that weaker models
elaborate, collectively distilling diverse reasoning patterns and visual
structures into the dataset. Empirical results show that models fine-tuned on
Visual-TableQA generalize robustly to external benchmarks, outperforming
several proprietary models despite the dataset's synthetic nature. The full
pipeline and resources are publicly available at
https://github.com/AI-4-Everyone/Visual-TableQA.