ChatPaper.aiChatPaper

ChartMuseum: Testen der visuellen Argumentationsfähigkeiten großer Vision-Sprach-Modelle

ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models

May 19, 2025
Autoren: Liyan Tang, Grace Kim, Xinyu Zhao, Thom Lake, Wenxuan Ding, Fangcong Yin, Prasann Singhal, Manya Wadhwa, Zeyu Leo Liu, Zayne Sprague, Ramya Namuduri, Bodun Hu, Juan Diego Rodriguez, Puyuan Peng, Greg Durrett
cs.AI

Zusammenfassung

Das Verständnis von Diagrammen stellt eine besondere Herausforderung für große visuell-sprachliche Modelle (LVLMs) dar, da es die Integration anspruchsvoller textueller und visueller Denkfähigkeiten erfordert. Aktuelle LVLMs zeigen jedoch ein bemerkenswertes Ungleichgewicht zwischen diesen Fähigkeiten und schneiden insbesondere bei visuellen Denkaufgaben, die schwer in Textform zu lösen sind, schlecht ab. Wir führen eine Fallstudie mit einem synthetischen Datensatz durch, der nur durch visuelles Denken lösbar ist, und zeigen, dass die Modellleistung mit zunehmender visueller Komplexität signifikant abnimmt, während die menschliche Leistung robust bleibt. Anschließend stellen wir ChartMuseum vor, einen neuen Benchmark für Diagramm-Frage-Antwort (QA), der 1.162 von Experten annotierte Fragen umfasst, die verschiedene Denktypen abdecken und aus realen Diagrammen von 184 Quellen stammen. Dieser Benchmark wurde speziell entwickelt, um komplexes visuelles und textuelles Denken zu bewerten. Im Gegensatz zu früheren Benchmarks für das Diagrammverständnis – bei denen Spitzenmodelle ähnlich und nahe der Sättigung abschneiden – deckt unser Benchmark eine erhebliche Lücke zwischen der Leistung von Modellen und Menschen auf, während er gleichzeitig die Fähigkeiten der Modelle effektiv differenziert: Während Menschen eine Genauigkeit von 93 % erreichen, erzielt das leistungsstärkste Modell Gemini-2.5-Pro nur 63,0 %, und das führende Open-Source-LVLM Qwen2.5-VL-72B-Instruct erreicht lediglich 38,5 %. Darüber hinaus verzeichnen alle Modelle bei Fragen, die hauptsächlich visuelles Denken erfordern, einen Leistungsabfall von 35 % bis 55 % im Vergleich zu Fragen, die stärker textbasiertes Denken erfordern. Schließlich zeigt unsere qualitative Fehleranalyse spezifische Kategorien von visuellem Denken auf, die für aktuelle LVLMs besonders herausfordernd sind.
English
Chart understanding presents a unique challenge for large vision-language models (LVLMs), as it requires the integration of sophisticated textual and visual reasoning capabilities. However, current LVLMs exhibit a notable imbalance between these skills, falling short on visual reasoning that is difficult to perform in text. We conduct a case study using a synthetic dataset solvable only through visual reasoning and show that model performance degrades significantly with increasing visual complexity, while human performance remains robust. We then introduce ChartMuseum, a new Chart Question Answering (QA) benchmark containing 1,162 expert-annotated questions spanning multiple reasoning types, curated from real-world charts across 184 sources, specifically built to evaluate complex visual and textual reasoning. Unlike prior chart understanding benchmarks -- where frontier models perform similarly and near saturation -- our benchmark exposes a substantial gap between model and human performance, while effectively differentiating model capabilities: although humans achieve 93% accuracy, the best-performing model Gemini-2.5-Pro attains only 63.0%, and the leading open-source LVLM Qwen2.5-VL-72B-Instruct achieves only 38.5%. Moreover, on questions requiring primarily visual reasoning, all models experience a 35%-55% performance drop from text-reasoning-heavy question performance. Lastly, our qualitative error analysis reveals specific categories of visual reasoning that are challenging for current LVLMs.

Summary

AI-Generated Summary

PDF162May 20, 2025