ChatPaper.aiChatPaper

Visual-TableQA : Benchmark en domaine ouvert pour le raisonnement sur des images de tableaux

Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images

September 9, 2025
papers.authors: Boammani Aser Lompo, Marc Haraoui
cs.AI

papers.abstract

Le raisonnement visuel sur des données structurées telles que les tableaux est une capacité essentielle pour les modèles vision-langage modernes (VLMs). Cependant, les benchmarks actuels restent limités en termes d'échelle, de diversité ou de profondeur de raisonnement, en particulier lorsqu'il s'agit d'images de tableaux rendus. Pour combler cette lacune, nous introduisons Visual-TableQA, un ensemble de données multimodal à grande échelle et ouvert, spécialement conçu pour évaluer et améliorer le raisonnement visuel sur des données tabulaires complexes. Notre pipeline de génération est modulaire, évolutif et entièrement autonome, impliquant plusieurs modèles de langage (LLMs) collaborant dans des rôles distincts : génération, validation et inspiration. Visual-TableQA comprend 2,5k tableaux richement structurés rendus en LaTeX et 6k paires de questions-réponses intensives en raisonnement, le tout produit à un coût inférieur à 100 USD. Pour promouvoir la diversité et la créativité, notre pipeline effectue une génération de données collaborative multi-modèles via un incitation croisée ('inspiration') et un filtrage par jury de LLMs. Les modèles plus performants suggèrent des mises en page et des sujets que les modèles moins performants élaborent, distillant collectivement des schémas de raisonnement diversifiés et des structures visuelles dans l'ensemble de données. Les résultats empiriques montrent que les modèles affinés sur Visual-TableQA généralisent robustement aux benchmarks externes, surpassant plusieurs modèles propriétaires malgré la nature synthétique de l'ensemble de données. Le pipeline complet et les ressources sont disponibles publiquement à l'adresse https://github.com/AI-4-Everyone/Visual-TableQA.
English
Visual reasoning over structured data such as tables is a critical capability for modern vision-language models (VLMs), yet current benchmarks remain limited in scale, diversity, or reasoning depth, especially when it comes to rendered table images. Addressing this gap, we introduce Visual-TableQA, a large-scale, open-domain multimodal dataset specifically designed to evaluate and enhance visual reasoning over complex tabular data. Our generation pipeline is modular, scalable, and fully autonomous, involving multiple reasoning LLMs collaborating across distinct roles: generation, validation, and inspiration. Visual-TableQA comprises 2.5k richly structured LaTeX-rendered tables and 6k reasoning-intensive QA pairs, all produced at a cost of under USD 100. To promote diversity and creativity, our pipeline performs multi-model collaborative data generation via cross-model prompting ('inspiration') and LLM-jury filtering. Stronger models seed layouts and topics that weaker models elaborate, collectively distilling diverse reasoning patterns and visual structures into the dataset. Empirical results show that models fine-tuned on Visual-TableQA generalize robustly to external benchmarks, outperforming several proprietary models despite the dataset's synthetic nature. The full pipeline and resources are publicly available at https://github.com/AI-4-Everyone/Visual-TableQA.
PDF42September 15, 2025