Visual-TableQA: Benchmark de Domínio Aberto para Raciocínio sobre Imagens de Tabelas

Resumo

O raciocínio visual sobre dados estruturados, como tabelas, é uma capacidade crítica para modelos modernos de visão e linguagem (VLMs), mas os benchmarks atuais permanecem limitados em escala, diversidade ou profundidade de raciocínio, especialmente quando se trata de imagens de tabelas renderizadas. Para preencher essa lacuna, apresentamos o Visual-TableQA, um conjunto de dados multimodal de grande escala e domínio aberto, especificamente projetado para avaliar e aprimorar o raciocínio visual sobre dados tabulares complexos. Nosso pipeline de geração é modular, escalável e totalmente autônomo, envolvendo múltiplos LLMs de raciocínio colaborando em papéis distintos: geração, validação e inspiração. O Visual-TableQA compreende 2,5 mil tabelas ricamente estruturadas renderizadas em LaTeX e 6 mil pares de perguntas e respostas intensivas em raciocínio, todos produzidos a um custo inferior a USD 100. Para promover diversidade e criatividade, nosso pipeline realiza a geração colaborativa de dados por meio de múltiplos modelos via prompt cruzado ('inspiração') e filtragem por júri de LLMs. Modelos mais fortes sugerem layouts e tópicos que modelos mais fracos elaboram, destilando coletivamente diversos padrões de raciocínio e estruturas visuais no conjunto de dados. Resultados empíricos mostram que modelos ajustados no Visual-TableQA generalizam robustamente para benchmarks externos, superando vários modelos proprietários, apesar da natureza sintética do conjunto de dados. O pipeline completo e os recursos estão publicamente disponíveis em https://github.com/AI-4-Everyone/Visual-TableQA.

English

Visual reasoning over structured data such as tables is a critical capability for modern vision-language models (VLMs), yet current benchmarks remain limited in scale, diversity, or reasoning depth, especially when it comes to rendered table images. Addressing this gap, we introduce Visual-TableQA, a large-scale, open-domain multimodal dataset specifically designed to evaluate and enhance visual reasoning over complex tabular data. Our generation pipeline is modular, scalable, and fully autonomous, involving multiple reasoning LLMs collaborating across distinct roles: generation, validation, and inspiration. Visual-TableQA comprises 2.5k richly structured LaTeX-rendered tables and 6k reasoning-intensive QA pairs, all produced at a cost of under USD 100. To promote diversity and creativity, our pipeline performs multi-model collaborative data generation via cross-model prompting ('inspiration') and LLM-jury filtering. Stronger models seed layouts and topics that weaker models elaborate, collectively distilling diverse reasoning patterns and visual structures into the dataset. Empirical results show that models fine-tuned on Visual-TableQA generalize robustly to external benchmarks, outperforming several proprietary models despite the dataset's synthetic nature. The full pipeline and resources are publicly available at https://github.com/AI-4-Everyone/Visual-TableQA.

Visual-TableQA: Benchmark de Domínio Aberto para Raciocínio sobre Imagens de Tabelas

Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images

Resumo

Support