Visual-TableQA: Punto de referencia de dominio abierto para razonamiento sobre imágenes de tablas
Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images
September 9, 2025
Autores: Boammani Aser Lompo, Marc Haraoui
cs.AI
Resumen
El razonamiento visual sobre datos estructurados, como tablas, es una capacidad crítica para los modelos modernos de visión y lenguaje (VLMs), sin embargo, los puntos de referencia actuales siguen siendo limitados en escala, diversidad o profundidad de razonamiento, especialmente cuando se trata de imágenes de tablas renderizadas. Para abordar esta brecha, presentamos Visual-TableQA, un conjunto de datos multimodal a gran escala y de dominio abierto, diseñado específicamente para evaluar y mejorar el razonamiento visual sobre datos tabulares complejos. Nuestro pipeline de generación es modular, escalable y completamente autónomo, e involucra múltiples modelos de lenguaje de razonamiento (LLMs) que colaboran en roles distintos: generación, validación e inspiración. Visual-TableQA comprende 2.5k tablas renderizadas en LaTeX con estructuras ricas y 6k pares de preguntas y respuestas intensivas en razonamiento, todos producidos a un costo inferior a USD 100. Para promover la diversidad y la creatividad, nuestro pipeline realiza una generación de datos colaborativa multi-modelo mediante indicaciones cruzadas entre modelos ('inspiración') y filtrado por un jurado de LLMs. Modelos más fuertes proponen diseños y temas que los modelos más débiles elaboran, destilando colectivamente diversos patrones de razonamiento y estructuras visuales en el conjunto de datos. Los resultados empíricos muestran que los modelos ajustados en Visual-TableQA generalizan de manera robusta a puntos de referencia externos, superando a varios modelos propietarios a pesar de la naturaleza sintética del conjunto de datos. El pipeline completo y los recursos están disponibles públicamente en https://github.com/AI-4-Everyone/Visual-TableQA.
English
Visual reasoning over structured data such as tables is a critical capability
for modern vision-language models (VLMs), yet current benchmarks remain limited
in scale, diversity, or reasoning depth, especially when it comes to rendered
table images. Addressing this gap, we introduce Visual-TableQA, a large-scale,
open-domain multimodal dataset specifically designed to evaluate and enhance
visual reasoning over complex tabular data. Our generation pipeline is modular,
scalable, and fully autonomous, involving multiple reasoning LLMs collaborating
across distinct roles: generation, validation, and inspiration. Visual-TableQA
comprises 2.5k richly structured LaTeX-rendered tables and 6k
reasoning-intensive QA pairs, all produced at a cost of under USD 100. To
promote diversity and creativity, our pipeline performs multi-model
collaborative data generation via cross-model prompting ('inspiration') and
LLM-jury filtering. Stronger models seed layouts and topics that weaker models
elaborate, collectively distilling diverse reasoning patterns and visual
structures into the dataset. Empirical results show that models fine-tuned on
Visual-TableQA generalize robustly to external benchmarks, outperforming
several proprietary models despite the dataset's synthetic nature. The full
pipeline and resources are publicly available at
https://github.com/AI-4-Everyone/Visual-TableQA.