ChatPaper.aiChatPaper

Visual-TableQA: Benchmark Open-Domain per il Ragionamento su Immagini di Tabelle

Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images

September 9, 2025
Autori: Boammani Aser Lompo, Marc Haraoui
cs.AI

Abstract

Il ragionamento visivo su dati strutturati come le tabelle è una capacità cruciale per i moderni modelli visione-linguaggio (VLMs), tuttavia i benchmark attuali rimangono limitati in termini di scala, diversità o profondità di ragionamento, specialmente quando si tratta di immagini di tabelle renderizzate. Per colmare questa lacuna, introduciamo Visual-TableQA, un dataset multimodale su larga scala e open-domain, progettato specificamente per valutare e migliorare il ragionamento visivo su dati tabellari complessi. La nostra pipeline di generazione è modulare, scalabile e completamente autonoma, coinvolgendo più LLM (Large Language Models) che collaborano in ruoli distinti: generazione, validazione e ispirazione. Visual-TableQA comprende 2.5k tabelle riccamente strutturate renderizzate in LaTeX e 6k coppie QA (domanda-risposta) ad alta intensità di ragionamento, tutte prodotte a un costo inferiore a 100 USD. Per promuovere diversità e creatività, la nostra pipeline esegue una generazione collaborativa di dati multi-modello tramite prompt incrociati ('ispirazione') e filtraggio tramite giuria di LLM. Modelli più potenti generano layout e argomenti che modelli più deboli elaborano, distillando collettivamente diversi schemi di ragionamento e strutture visive nel dataset. I risultati empirici mostrano che i modelli fine-tuned su Visual-TableQA generalizzano robustamente a benchmark esterni, superando diversi modelli proprietari nonostante la natura sintetica del dataset. L'intera pipeline e le risorse sono disponibili pubblicamente all'indirizzo https://github.com/AI-4-Everyone/Visual-TableQA.
English
Visual reasoning over structured data such as tables is a critical capability for modern vision-language models (VLMs), yet current benchmarks remain limited in scale, diversity, or reasoning depth, especially when it comes to rendered table images. Addressing this gap, we introduce Visual-TableQA, a large-scale, open-domain multimodal dataset specifically designed to evaluate and enhance visual reasoning over complex tabular data. Our generation pipeline is modular, scalable, and fully autonomous, involving multiple reasoning LLMs collaborating across distinct roles: generation, validation, and inspiration. Visual-TableQA comprises 2.5k richly structured LaTeX-rendered tables and 6k reasoning-intensive QA pairs, all produced at a cost of under USD 100. To promote diversity and creativity, our pipeline performs multi-model collaborative data generation via cross-model prompting ('inspiration') and LLM-jury filtering. Stronger models seed layouts and topics that weaker models elaborate, collectively distilling diverse reasoning patterns and visual structures into the dataset. Empirical results show that models fine-tuned on Visual-TableQA generalize robustly to external benchmarks, outperforming several proprietary models despite the dataset's synthetic nature. The full pipeline and resources are publicly available at https://github.com/AI-4-Everyone/Visual-TableQA.
PDF42September 15, 2025