ChartMuseum: Тестирование способностей к визуальному анализу крупных мультимодальных моделей

Аннотация

Понимание диаграмм представляет собой уникальную задачу для крупных моделей, работающих с визуальными и текстовыми данными (LVLMs), поскольку требует интеграции сложных навыков текстового и визуального анализа. Однако современные LVLMs демонстрируют заметный дисбаланс между этими навыками, особенно в части визуального анализа, который сложно выполнить с помощью текста. Мы проводим кейс-стадию, используя синтетический набор данных, который можно решить только с помощью визуального анализа, и показываем, что производительность моделей значительно ухудшается с увеличением визуальной сложности, в то время как человеческая производительность остается стабильной. Затем мы представляем ChartMuseum — новый эталонный набор для ответов на вопросы по диаграммам (Chart QA), содержащий 1 162 вопроса, аннотированных экспертами и охватывающих различные типы анализа, составленных на основе реальных диаграмм из 184 источников. Этот набор специально разработан для оценки сложного визуального и текстового анализа. В отличие от предыдущих эталонов для понимания диаграмм, где передовые модели показывают схожие результаты, близкие к насыщению, наш эталон выявляет значительный разрыв между производительностью моделей и человека, эффективно дифференцируя возможности моделей: хотя люди достигают точности 93%, лучшая модель Gemini-2.5-Pro показывает только 63,0%, а ведущая открытая LVLM Qwen2.5-VL-72B-Instruct — лишь 38,5%. Более того, на вопросах, требующих преимущественно визуального анализа, все модели демонстрируют снижение производительности на 35–55% по сравнению с вопросами, ориентированными на текстовый анализ. Наконец, наш качественный анализ ошибок выявляет конкретные категории визуального анализа, которые представляют сложность для современных LVLMs.

English

Chart understanding presents a unique challenge for large vision-language models (LVLMs), as it requires the integration of sophisticated textual and visual reasoning capabilities. However, current LVLMs exhibit a notable imbalance between these skills, falling short on visual reasoning that is difficult to perform in text. We conduct a case study using a synthetic dataset solvable only through visual reasoning and show that model performance degrades significantly with increasing visual complexity, while human performance remains robust. We then introduce ChartMuseum, a new Chart Question Answering (QA) benchmark containing 1,162 expert-annotated questions spanning multiple reasoning types, curated from real-world charts across 184 sources, specifically built to evaluate complex visual and textual reasoning. Unlike prior chart understanding benchmarks -- where frontier models perform similarly and near saturation -- our benchmark exposes a substantial gap between model and human performance, while effectively differentiating model capabilities: although humans achieve 93% accuracy, the best-performing model Gemini-2.5-Pro attains only 63.0%, and the leading open-source LVLM Qwen2.5-VL-72B-Instruct achieves only 38.5%. Moreover, on questions requiring primarily visual reasoning, all models experience a 35%-55% performance drop from text-reasoning-heavy question performance. Lastly, our qualitative error analysis reveals specific categories of visual reasoning that are challenging for current LVLMs.

ChartMuseum: Тестирование способностей к визуальному анализу крупных мультимодальных моделей

ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models

Аннотация

Support