ChatPaper.aiChatPaper

Visual-TableQA: 테이블 이미지 추론을 위한 오픈 도메인 벤치마크

Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images

September 9, 2025
저자: Boammani Aser Lompo, Marc Haraoui
cs.AI

초록

테이블과 같은 구조화된 데이터에 대한 시각적 추론은 현대의 시각-언어 모델(VLMs)에게 필수적인 능력이지만, 현재의 벤치마크는 특히 렌더링된 테이블 이미지의 경우 규모, 다양성 또는 추론 깊이 측면에서 제한적입니다. 이러한 격차를 해소하기 위해, 우리는 복잡한 표 형식 데이터에 대한 시각적 추론을 평가하고 향상시키기 위해 특별히 설계된 대규모, 개방형 다중모달 데이터셋인 Visual-TableQA를 소개합니다. 우리의 생성 파이프라인은 모듈식이며 확장 가능하고 완전히 자율적이며, 생성, 검증 및 영감이라는 구별된 역할을 수행하는 여러 추론 LLM들이 협력합니다. Visual-TableQA는 2.5k개의 풍부하게 구조화된 LaTeX 렌더링 테이블과 6k개의 추론 집약적인 QA 쌍으로 구성되어 있으며, 모두 100달러 미만의 비용으로 생성되었습니다. 다양성과 창의성을 촉진하기 위해, 우리의 파이프라인은 크로스 모델 프롬프팅('영감')과 LLM-배심원 필터링을 통해 다중 모델 협업 데이터 생성을 수행합니다. 강력한 모델은 레이아웃과 주제를 제공하고, 약한 모델은 이를 확장하여 다양한 추론 패턴과 시각적 구조를 데이터셋에 집약합니다. 실험 결과, Visual-TableQA에서 미세 조정된 모델은 외부 벤치마크에 대해 견고하게 일반화되며, 데이터셋의 합성적 특성에도 불구하고 여러 독점 모델을 능가합니다. 전체 파이프라인과 리소스는 https://github.com/AI-4-Everyone/Visual-TableQA에서 공개적으로 이용 가능합니다.
English
Visual reasoning over structured data such as tables is a critical capability for modern vision-language models (VLMs), yet current benchmarks remain limited in scale, diversity, or reasoning depth, especially when it comes to rendered table images. Addressing this gap, we introduce Visual-TableQA, a large-scale, open-domain multimodal dataset specifically designed to evaluate and enhance visual reasoning over complex tabular data. Our generation pipeline is modular, scalable, and fully autonomous, involving multiple reasoning LLMs collaborating across distinct roles: generation, validation, and inspiration. Visual-TableQA comprises 2.5k richly structured LaTeX-rendered tables and 6k reasoning-intensive QA pairs, all produced at a cost of under USD 100. To promote diversity and creativity, our pipeline performs multi-model collaborative data generation via cross-model prompting ('inspiration') and LLM-jury filtering. Stronger models seed layouts and topics that weaker models elaborate, collectively distilling diverse reasoning patterns and visual structures into the dataset. Empirical results show that models fine-tuned on Visual-TableQA generalize robustly to external benchmarks, outperforming several proprietary models despite the dataset's synthetic nature. The full pipeline and resources are publicly available at https://github.com/AI-4-Everyone/Visual-TableQA.
PDF42September 15, 2025