ChatPaper.aiChatPaper

ChartMuseum: Тестирование способностей к визуальному анализу крупных мультимодальных моделей

ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models

May 19, 2025
Авторы: Liyan Tang, Grace Kim, Xinyu Zhao, Thom Lake, Wenxuan Ding, Fangcong Yin, Prasann Singhal, Manya Wadhwa, Zeyu Leo Liu, Zayne Sprague, Ramya Namuduri, Bodun Hu, Juan Diego Rodriguez, Puyuan Peng, Greg Durrett
cs.AI

Аннотация

Понимание диаграмм представляет собой уникальную задачу для крупных моделей, работающих с визуальными и текстовыми данными (LVLMs), поскольку требует интеграции сложных навыков текстового и визуального анализа. Однако современные LVLMs демонстрируют заметный дисбаланс между этими навыками, особенно в части визуального анализа, который сложно выполнить с помощью текста. Мы проводим кейс-стадию, используя синтетический набор данных, который можно решить только с помощью визуального анализа, и показываем, что производительность моделей значительно ухудшается с увеличением визуальной сложности, в то время как человеческая производительность остается стабильной. Затем мы представляем ChartMuseum — новый эталонный набор для ответов на вопросы по диаграммам (Chart QA), содержащий 1 162 вопроса, аннотированных экспертами и охватывающих различные типы анализа, составленных на основе реальных диаграмм из 184 источников. Этот набор специально разработан для оценки сложного визуального и текстового анализа. В отличие от предыдущих эталонов для понимания диаграмм, где передовые модели показывают схожие результаты, близкие к насыщению, наш эталон выявляет значительный разрыв между производительностью моделей и человека, эффективно дифференцируя возможности моделей: хотя люди достигают точности 93%, лучшая модель Gemini-2.5-Pro показывает только 63,0%, а ведущая открытая LVLM Qwen2.5-VL-72B-Instruct — лишь 38,5%. Более того, на вопросах, требующих преимущественно визуального анализа, все модели демонстрируют снижение производительности на 35–55% по сравнению с вопросами, ориентированными на текстовый анализ. Наконец, наш качественный анализ ошибок выявляет конкретные категории визуального анализа, которые представляют сложность для современных LVLMs.
English
Chart understanding presents a unique challenge for large vision-language models (LVLMs), as it requires the integration of sophisticated textual and visual reasoning capabilities. However, current LVLMs exhibit a notable imbalance between these skills, falling short on visual reasoning that is difficult to perform in text. We conduct a case study using a synthetic dataset solvable only through visual reasoning and show that model performance degrades significantly with increasing visual complexity, while human performance remains robust. We then introduce ChartMuseum, a new Chart Question Answering (QA) benchmark containing 1,162 expert-annotated questions spanning multiple reasoning types, curated from real-world charts across 184 sources, specifically built to evaluate complex visual and textual reasoning. Unlike prior chart understanding benchmarks -- where frontier models perform similarly and near saturation -- our benchmark exposes a substantial gap between model and human performance, while effectively differentiating model capabilities: although humans achieve 93% accuracy, the best-performing model Gemini-2.5-Pro attains only 63.0%, and the leading open-source LVLM Qwen2.5-VL-72B-Instruct achieves only 38.5%. Moreover, on questions requiring primarily visual reasoning, all models experience a 35%-55% performance drop from text-reasoning-heavy question performance. Lastly, our qualitative error analysis reveals specific categories of visual reasoning that are challenging for current LVLMs.

Summary

AI-Generated Summary

PDF152May 20, 2025