ChartMuseum: Testen der visuellen Argumentationsfähigkeiten großer Vision-Sprach-Modelle
ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models
May 19, 2025
Autoren: Liyan Tang, Grace Kim, Xinyu Zhao, Thom Lake, Wenxuan Ding, Fangcong Yin, Prasann Singhal, Manya Wadhwa, Zeyu Leo Liu, Zayne Sprague, Ramya Namuduri, Bodun Hu, Juan Diego Rodriguez, Puyuan Peng, Greg Durrett
cs.AI
Zusammenfassung
Das Verständnis von Diagrammen stellt eine besondere Herausforderung für große visuell-sprachliche Modelle (LVLMs) dar, da es die Integration anspruchsvoller textueller und visueller Denkfähigkeiten erfordert. Aktuelle LVLMs zeigen jedoch ein bemerkenswertes Ungleichgewicht zwischen diesen Fähigkeiten und schneiden insbesondere bei visuellen Denkaufgaben, die schwer in Textform zu lösen sind, schlecht ab. Wir führen eine Fallstudie mit einem synthetischen Datensatz durch, der nur durch visuelles Denken lösbar ist, und zeigen, dass die Modellleistung mit zunehmender visueller Komplexität signifikant abnimmt, während die menschliche Leistung robust bleibt. Anschließend stellen wir ChartMuseum vor, einen neuen Benchmark für Diagramm-Frage-Antwort (QA), der 1.162 von Experten annotierte Fragen umfasst, die verschiedene Denktypen abdecken und aus realen Diagrammen von 184 Quellen stammen. Dieser Benchmark wurde speziell entwickelt, um komplexes visuelles und textuelles Denken zu bewerten. Im Gegensatz zu früheren Benchmarks für das Diagrammverständnis – bei denen Spitzenmodelle ähnlich und nahe der Sättigung abschneiden – deckt unser Benchmark eine erhebliche Lücke zwischen der Leistung von Modellen und Menschen auf, während er gleichzeitig die Fähigkeiten der Modelle effektiv differenziert: Während Menschen eine Genauigkeit von 93 % erreichen, erzielt das leistungsstärkste Modell Gemini-2.5-Pro nur 63,0 %, und das führende Open-Source-LVLM Qwen2.5-VL-72B-Instruct erreicht lediglich 38,5 %. Darüber hinaus verzeichnen alle Modelle bei Fragen, die hauptsächlich visuelles Denken erfordern, einen Leistungsabfall von 35 % bis 55 % im Vergleich zu Fragen, die stärker textbasiertes Denken erfordern. Schließlich zeigt unsere qualitative Fehleranalyse spezifische Kategorien von visuellem Denken auf, die für aktuelle LVLMs besonders herausfordernd sind.
English
Chart understanding presents a unique challenge for large vision-language
models (LVLMs), as it requires the integration of sophisticated textual and
visual reasoning capabilities. However, current LVLMs exhibit a notable
imbalance between these skills, falling short on visual reasoning that is
difficult to perform in text. We conduct a case study using a synthetic dataset
solvable only through visual reasoning and show that model performance degrades
significantly with increasing visual complexity, while human performance
remains robust. We then introduce ChartMuseum, a new Chart Question Answering
(QA) benchmark containing 1,162 expert-annotated questions spanning multiple
reasoning types, curated from real-world charts across 184 sources,
specifically built to evaluate complex visual and textual reasoning. Unlike
prior chart understanding benchmarks -- where frontier models perform similarly
and near saturation -- our benchmark exposes a substantial gap between model
and human performance, while effectively differentiating model capabilities:
although humans achieve 93% accuracy, the best-performing model Gemini-2.5-Pro
attains only 63.0%, and the leading open-source LVLM Qwen2.5-VL-72B-Instruct
achieves only 38.5%. Moreover, on questions requiring primarily visual
reasoning, all models experience a 35%-55% performance drop from
text-reasoning-heavy question performance. Lastly, our qualitative error
analysis reveals specific categories of visual reasoning that are challenging
for current LVLMs.Summary
AI-Generated Summary