ChatPaper.aiChatPaper

Visual-TableQA: Punto de referencia de dominio abierto para razonamiento sobre imágenes de tablas

Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images

September 9, 2025
Autores: Boammani Aser Lompo, Marc Haraoui
cs.AI

Resumen

El razonamiento visual sobre datos estructurados, como tablas, es una capacidad crítica para los modelos modernos de visión y lenguaje (VLMs), sin embargo, los puntos de referencia actuales siguen siendo limitados en escala, diversidad o profundidad de razonamiento, especialmente cuando se trata de imágenes de tablas renderizadas. Para abordar esta brecha, presentamos Visual-TableQA, un conjunto de datos multimodal a gran escala y de dominio abierto, diseñado específicamente para evaluar y mejorar el razonamiento visual sobre datos tabulares complejos. Nuestro pipeline de generación es modular, escalable y completamente autónomo, e involucra múltiples modelos de lenguaje de razonamiento (LLMs) que colaboran en roles distintos: generación, validación e inspiración. Visual-TableQA comprende 2.5k tablas renderizadas en LaTeX con estructuras ricas y 6k pares de preguntas y respuestas intensivas en razonamiento, todos producidos a un costo inferior a USD 100. Para promover la diversidad y la creatividad, nuestro pipeline realiza una generación de datos colaborativa multi-modelo mediante indicaciones cruzadas entre modelos ('inspiración') y filtrado por un jurado de LLMs. Modelos más fuertes proponen diseños y temas que los modelos más débiles elaboran, destilando colectivamente diversos patrones de razonamiento y estructuras visuales en el conjunto de datos. Los resultados empíricos muestran que los modelos ajustados en Visual-TableQA generalizan de manera robusta a puntos de referencia externos, superando a varios modelos propietarios a pesar de la naturaleza sintética del conjunto de datos. El pipeline completo y los recursos están disponibles públicamente en https://github.com/AI-4-Everyone/Visual-TableQA.
English
Visual reasoning over structured data such as tables is a critical capability for modern vision-language models (VLMs), yet current benchmarks remain limited in scale, diversity, or reasoning depth, especially when it comes to rendered table images. Addressing this gap, we introduce Visual-TableQA, a large-scale, open-domain multimodal dataset specifically designed to evaluate and enhance visual reasoning over complex tabular data. Our generation pipeline is modular, scalable, and fully autonomous, involving multiple reasoning LLMs collaborating across distinct roles: generation, validation, and inspiration. Visual-TableQA comprises 2.5k richly structured LaTeX-rendered tables and 6k reasoning-intensive QA pairs, all produced at a cost of under USD 100. To promote diversity and creativity, our pipeline performs multi-model collaborative data generation via cross-model prompting ('inspiration') and LLM-jury filtering. Stronger models seed layouts and topics that weaker models elaborate, collectively distilling diverse reasoning patterns and visual structures into the dataset. Empirical results show that models fine-tuned on Visual-TableQA generalize robustly to external benchmarks, outperforming several proprietary models despite the dataset's synthetic nature. The full pipeline and resources are publicly available at https://github.com/AI-4-Everyone/Visual-TableQA.
PDF42September 15, 2025