ChartMuseum: Тестирование способностей к визуальному анализу крупных мультимодальных моделей
ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models
May 19, 2025
Авторы: Liyan Tang, Grace Kim, Xinyu Zhao, Thom Lake, Wenxuan Ding, Fangcong Yin, Prasann Singhal, Manya Wadhwa, Zeyu Leo Liu, Zayne Sprague, Ramya Namuduri, Bodun Hu, Juan Diego Rodriguez, Puyuan Peng, Greg Durrett
cs.AI
Аннотация
Понимание диаграмм представляет собой уникальную задачу для крупных моделей, работающих с визуальными и текстовыми данными (LVLMs), поскольку требует интеграции сложных навыков текстового и визуального анализа. Однако современные LVLMs демонстрируют заметный дисбаланс между этими навыками, особенно в части визуального анализа, который сложно выполнить с помощью текста. Мы проводим кейс-стадию, используя синтетический набор данных, который можно решить только с помощью визуального анализа, и показываем, что производительность моделей значительно ухудшается с увеличением визуальной сложности, в то время как человеческая производительность остается стабильной. Затем мы представляем ChartMuseum — новый эталонный набор для ответов на вопросы по диаграммам (Chart QA), содержащий 1 162 вопроса, аннотированных экспертами и охватывающих различные типы анализа, составленных на основе реальных диаграмм из 184 источников. Этот набор специально разработан для оценки сложного визуального и текстового анализа. В отличие от предыдущих эталонов для понимания диаграмм, где передовые модели показывают схожие результаты, близкие к насыщению, наш эталон выявляет значительный разрыв между производительностью моделей и человека, эффективно дифференцируя возможности моделей: хотя люди достигают точности 93%, лучшая модель Gemini-2.5-Pro показывает только 63,0%, а ведущая открытая LVLM Qwen2.5-VL-72B-Instruct — лишь 38,5%. Более того, на вопросах, требующих преимущественно визуального анализа, все модели демонстрируют снижение производительности на 35–55% по сравнению с вопросами, ориентированными на текстовый анализ. Наконец, наш качественный анализ ошибок выявляет конкретные категории визуального анализа, которые представляют сложность для современных LVLMs.
English
Chart understanding presents a unique challenge for large vision-language
models (LVLMs), as it requires the integration of sophisticated textual and
visual reasoning capabilities. However, current LVLMs exhibit a notable
imbalance between these skills, falling short on visual reasoning that is
difficult to perform in text. We conduct a case study using a synthetic dataset
solvable only through visual reasoning and show that model performance degrades
significantly with increasing visual complexity, while human performance
remains robust. We then introduce ChartMuseum, a new Chart Question Answering
(QA) benchmark containing 1,162 expert-annotated questions spanning multiple
reasoning types, curated from real-world charts across 184 sources,
specifically built to evaluate complex visual and textual reasoning. Unlike
prior chart understanding benchmarks -- where frontier models perform similarly
and near saturation -- our benchmark exposes a substantial gap between model
and human performance, while effectively differentiating model capabilities:
although humans achieve 93% accuracy, the best-performing model Gemini-2.5-Pro
attains only 63.0%, and the leading open-source LVLM Qwen2.5-VL-72B-Instruct
achieves only 38.5%. Moreover, on questions requiring primarily visual
reasoning, all models experience a 35%-55% performance drop from
text-reasoning-heavy question performance. Lastly, our qualitative error
analysis reveals specific categories of visual reasoning that are challenging
for current LVLMs.Summary
AI-Generated Summary