ChartMuseum: 대규모 시각-언어 모델의 시각적 추론 능력 평가
ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models
May 19, 2025
저자: Liyan Tang, Grace Kim, Xinyu Zhao, Thom Lake, Wenxuan Ding, Fangcong Yin, Prasann Singhal, Manya Wadhwa, Zeyu Leo Liu, Zayne Sprague, Ramya Namuduri, Bodun Hu, Juan Diego Rodriguez, Puyuan Peng, Greg Durrett
cs.AI
초록
차트 이해는 대형 시각-언어 모델(LVLMs)에게 독특한 도전 과제를 제시하며, 이는 정교한 텍스트 및 시각적 추론 능력의 통합을 요구한다. 그러나 현재의 LVLMs는 이러한 기술 간에 현저한 불균형을 보이며, 텍스트로 수행하기 어려운 시각적 추론에서 부족함을 드러낸다. 우리는 시각적 추론만으로 해결 가능한 합성 데이터셋을 사용한 사례 연구를 수행하고, 시각적 복잡성이 증가함에 따라 모델 성능이 크게 저하되는 반면 인간의 성능은 견고하게 유지됨을 보여준다. 이어서 우리는 ChartMuseum이라는 새로운 차트 질의응답(QA) 벤치마크를 소개한다. 이 벤치마크는 184개 출처의 실제 차트에서 선별된 다양한 추론 유형을 아우르는 1,162개의 전문가 주석 질문으로 구성되어 있으며, 복잡한 시각 및 텍스트 추론을 평가하기 위해 특별히 제작되었다. 기존의 차트 이해 벤치마크와 달리, 선두 모델들이 유사한 성능을 보이고 포화 상태에 근접한 반면, 우리의 벤치마크는 모델과 인간의 성능 간에 상당한 격차를 드러내며 모델 능력을 효과적으로 구분한다: 인간은 93%의 정확도를 달성한 반면, 최고 성능 모델인 Gemini-2.5-Pro는 63.0%에 그쳤고, 선두 오픈소스 LVLM인 Qwen2.5-VL-72B-Instruct는 38.5%에 불과했다. 또한, 주로 시각적 추론이 필요한 질문에서 모든 모델은 텍스트 추론 중심 질문 성능 대비 35%-55%의 성능 하락을 경험했다. 마지막으로, 우리의 질적 오류 분석은 현재 LVLMs에게 도전적인 시각적 추론의 특정 범주를 밝혀냈다.
English
Chart understanding presents a unique challenge for large vision-language
models (LVLMs), as it requires the integration of sophisticated textual and
visual reasoning capabilities. However, current LVLMs exhibit a notable
imbalance between these skills, falling short on visual reasoning that is
difficult to perform in text. We conduct a case study using a synthetic dataset
solvable only through visual reasoning and show that model performance degrades
significantly with increasing visual complexity, while human performance
remains robust. We then introduce ChartMuseum, a new Chart Question Answering
(QA) benchmark containing 1,162 expert-annotated questions spanning multiple
reasoning types, curated from real-world charts across 184 sources,
specifically built to evaluate complex visual and textual reasoning. Unlike
prior chart understanding benchmarks -- where frontier models perform similarly
and near saturation -- our benchmark exposes a substantial gap between model
and human performance, while effectively differentiating model capabilities:
although humans achieve 93% accuracy, the best-performing model Gemini-2.5-Pro
attains only 63.0%, and the leading open-source LVLM Qwen2.5-VL-72B-Instruct
achieves only 38.5%. Moreover, on questions requiring primarily visual
reasoning, all models experience a 35%-55% performance drop from
text-reasoning-heavy question performance. Lastly, our qualitative error
analysis reveals specific categories of visual reasoning that are challenging
for current LVLMs.Summary
AI-Generated Summary