Visual-TableQA: Открытый эталонный набор данных для логического анализа изображений таблиц
Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images
September 9, 2025
Авторы: Boammani Aser Lompo, Marc Haraoui
cs.AI
Аннотация
Визуальное рассуждение над структурированными данными, такими как таблицы, является важной способностью для современных моделей, работающих с визуальными и языковыми данными (VLMs). Однако существующие бенчмарки остаются ограниченными в масштабе, разнообразии или глубине рассуждений, особенно когда речь идет о визуализированных изображениях таблиц. Для устранения этого пробела мы представляем Visual-TableQA — крупномасштабный мультимодальный набор данных открытой области, специально разработанный для оценки и улучшения визуального рассуждения над сложными табличными данными. Наш процесс генерации является модульным, масштабируемым и полностью автономным, включая несколько языковых моделей (LLM), которые взаимодействуют в различных ролях: генерация, проверка и вдохновение. Visual-TableQA содержит 2,5 тыс. богато структурированных таблиц, визуализированных с помощью LaTeX, и 6 тыс. вопросно-ответных пар, требующих интенсивного рассуждения, все созданные с затратами менее 100 долларов США. Для обеспечения разнообразия и креативности наш процесс использует многомодельную совместную генерацию данных через кросс-модельное взаимодействие («вдохновение») и фильтрацию с помощью «жюри» из LLM. Более сильные модели задают макеты и темы, которые развивают более слабые модели, совместно извлекая разнообразные шаблоны рассуждений и визуальные структуры в набор данных. Эмпирические результаты показывают, что модели, дообученные на Visual-TableQA, успешно обобщают на внешние бенчмарки, превосходя несколько проприетарных моделей, несмотря на синтетическую природу набора данных. Полный процесс и ресурсы доступны публично по адресу https://github.com/AI-4-Everyone/Visual-TableQA.
English
Visual reasoning over structured data such as tables is a critical capability
for modern vision-language models (VLMs), yet current benchmarks remain limited
in scale, diversity, or reasoning depth, especially when it comes to rendered
table images. Addressing this gap, we introduce Visual-TableQA, a large-scale,
open-domain multimodal dataset specifically designed to evaluate and enhance
visual reasoning over complex tabular data. Our generation pipeline is modular,
scalable, and fully autonomous, involving multiple reasoning LLMs collaborating
across distinct roles: generation, validation, and inspiration. Visual-TableQA
comprises 2.5k richly structured LaTeX-rendered tables and 6k
reasoning-intensive QA pairs, all produced at a cost of under USD 100. To
promote diversity and creativity, our pipeline performs multi-model
collaborative data generation via cross-model prompting ('inspiration') and
LLM-jury filtering. Stronger models seed layouts and topics that weaker models
elaborate, collectively distilling diverse reasoning patterns and visual
structures into the dataset. Empirical results show that models fine-tuned on
Visual-TableQA generalize robustly to external benchmarks, outperforming
several proprietary models despite the dataset's synthetic nature. The full
pipeline and resources are publicly available at
https://github.com/AI-4-Everyone/Visual-TableQA.