Visual-TableQA: Benchmark Open-Domain per il Ragionamento su Immagini di Tabelle
Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images
September 9, 2025
Autori: Boammani Aser Lompo, Marc Haraoui
cs.AI
Abstract
Il ragionamento visivo su dati strutturati come le tabelle è una capacità cruciale per i moderni modelli visione-linguaggio (VLMs), tuttavia i benchmark attuali rimangono limitati in termini di scala, diversità o profondità di ragionamento, specialmente quando si tratta di immagini di tabelle renderizzate. Per colmare questa lacuna, introduciamo Visual-TableQA, un dataset multimodale su larga scala e open-domain, progettato specificamente per valutare e migliorare il ragionamento visivo su dati tabellari complessi. La nostra pipeline di generazione è modulare, scalabile e completamente autonoma, coinvolgendo più LLM (Large Language Models) che collaborano in ruoli distinti: generazione, validazione e ispirazione. Visual-TableQA comprende 2.5k tabelle riccamente strutturate renderizzate in LaTeX e 6k coppie QA (domanda-risposta) ad alta intensità di ragionamento, tutte prodotte a un costo inferiore a 100 USD. Per promuovere diversità e creatività, la nostra pipeline esegue una generazione collaborativa di dati multi-modello tramite prompt incrociati ('ispirazione') e filtraggio tramite giuria di LLM. Modelli più potenti generano layout e argomenti che modelli più deboli elaborano, distillando collettivamente diversi schemi di ragionamento e strutture visive nel dataset. I risultati empirici mostrano che i modelli fine-tuned su Visual-TableQA generalizzano robustamente a benchmark esterni, superando diversi modelli proprietari nonostante la natura sintetica del dataset. L'intera pipeline e le risorse sono disponibili pubblicamente all'indirizzo https://github.com/AI-4-Everyone/Visual-TableQA.
English
Visual reasoning over structured data such as tables is a critical capability
for modern vision-language models (VLMs), yet current benchmarks remain limited
in scale, diversity, or reasoning depth, especially when it comes to rendered
table images. Addressing this gap, we introduce Visual-TableQA, a large-scale,
open-domain multimodal dataset specifically designed to evaluate and enhance
visual reasoning over complex tabular data. Our generation pipeline is modular,
scalable, and fully autonomous, involving multiple reasoning LLMs collaborating
across distinct roles: generation, validation, and inspiration. Visual-TableQA
comprises 2.5k richly structured LaTeX-rendered tables and 6k
reasoning-intensive QA pairs, all produced at a cost of under USD 100. To
promote diversity and creativity, our pipeline performs multi-model
collaborative data generation via cross-model prompting ('inspiration') and
LLM-jury filtering. Stronger models seed layouts and topics that weaker models
elaborate, collectively distilling diverse reasoning patterns and visual
structures into the dataset. Empirical results show that models fine-tuned on
Visual-TableQA generalize robustly to external benchmarks, outperforming
several proprietary models despite the dataset's synthetic nature. The full
pipeline and resources are publicly available at
https://github.com/AI-4-Everyone/Visual-TableQA.