Visual-TableQA: Benchmark de Domínio Aberto para Raciocínio sobre Imagens de Tabelas
Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images
September 9, 2025
Autores: Boammani Aser Lompo, Marc Haraoui
cs.AI
Resumo
O raciocínio visual sobre dados estruturados, como tabelas, é uma capacidade crítica para modelos modernos de visão e linguagem (VLMs), mas os benchmarks atuais permanecem limitados em escala, diversidade ou profundidade de raciocínio, especialmente quando se trata de imagens de tabelas renderizadas. Para preencher essa lacuna, apresentamos o Visual-TableQA, um conjunto de dados multimodal de grande escala e domínio aberto, especificamente projetado para avaliar e aprimorar o raciocínio visual sobre dados tabulares complexos. Nosso pipeline de geração é modular, escalável e totalmente autônomo, envolvendo múltiplos LLMs de raciocínio colaborando em papéis distintos: geração, validação e inspiração. O Visual-TableQA compreende 2,5 mil tabelas ricamente estruturadas renderizadas em LaTeX e 6 mil pares de perguntas e respostas intensivas em raciocínio, todos produzidos a um custo inferior a USD 100. Para promover diversidade e criatividade, nosso pipeline realiza a geração colaborativa de dados por meio de múltiplos modelos via prompt cruzado ('inspiração') e filtragem por júri de LLMs. Modelos mais fortes sugerem layouts e tópicos que modelos mais fracos elaboram, destilando coletivamente diversos padrões de raciocínio e estruturas visuais no conjunto de dados. Resultados empíricos mostram que modelos ajustados no Visual-TableQA generalizam robustamente para benchmarks externos, superando vários modelos proprietários, apesar da natureza sintética do conjunto de dados. O pipeline completo e os recursos estão publicamente disponíveis em https://github.com/AI-4-Everyone/Visual-TableQA.
English
Visual reasoning over structured data such as tables is a critical capability
for modern vision-language models (VLMs), yet current benchmarks remain limited
in scale, diversity, or reasoning depth, especially when it comes to rendered
table images. Addressing this gap, we introduce Visual-TableQA, a large-scale,
open-domain multimodal dataset specifically designed to evaluate and enhance
visual reasoning over complex tabular data. Our generation pipeline is modular,
scalable, and fully autonomous, involving multiple reasoning LLMs collaborating
across distinct roles: generation, validation, and inspiration. Visual-TableQA
comprises 2.5k richly structured LaTeX-rendered tables and 6k
reasoning-intensive QA pairs, all produced at a cost of under USD 100. To
promote diversity and creativity, our pipeline performs multi-model
collaborative data generation via cross-model prompting ('inspiration') and
LLM-jury filtering. Stronger models seed layouts and topics that weaker models
elaborate, collectively distilling diverse reasoning patterns and visual
structures into the dataset. Empirical results show that models fine-tuned on
Visual-TableQA generalize robustly to external benchmarks, outperforming
several proprietary models despite the dataset's synthetic nature. The full
pipeline and resources are publicly available at
https://github.com/AI-4-Everyone/Visual-TableQA.