ChartMuseum: Testando as Capacidades de Raciocínio Visual de Grandes Modelos de Visão e Linguagem
ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models
May 19, 2025
Autores: Liyan Tang, Grace Kim, Xinyu Zhao, Thom Lake, Wenxuan Ding, Fangcong Yin, Prasann Singhal, Manya Wadhwa, Zeyu Leo Liu, Zayne Sprague, Ramya Namuduri, Bodun Hu, Juan Diego Rodriguez, Puyuan Peng, Greg Durrett
cs.AI
Resumo
A compreensão de gráficos apresenta um desafio único para grandes modelos de visão e linguagem (LVLMs), pois requer a integração de capacidades sofisticadas de raciocínio textual e visual. No entanto, os LVLMs atuais exibem um desequilíbrio notável entre essas habilidades, ficando aquém no raciocínio visual que é difícil de realizar em texto. Realizamos um estudo de caso utilizando um conjunto de dados sintético solucionável apenas por meio de raciocínio visual e mostramos que o desempenho do modelo se degrada significativamente com o aumento da complexidade visual, enquanto o desempenho humano permanece robusto. Em seguida, apresentamos o ChartMuseum, um novo benchmark de Question Answering (QA) para gráficos contendo 1.162 questões anotadas por especialistas, abrangendo múltiplos tipos de raciocínio, curadas a partir de gráficos do mundo real de 184 fontes, especificamente construído para avaliar raciocínios visuais e textuais complexos. Diferentemente de benchmarks anteriores de compreensão de gráficos -- onde modelos de ponta apresentam desempenho semelhante e próximo à saturação -- nosso benchmark expõe uma lacuna substancial entre o desempenho do modelo e o humano, enquanto diferencia efetivamente as capacidades dos modelos: embora os humanos alcancem 93% de precisão, o modelo com melhor desempenho, o Gemini-2.5-Pro, atinge apenas 63,0%, e o LVLM de código aberto líder, o Qwen2.5-VL-72B-Instruct, alcança apenas 38,5%. Além disso, em questões que exigem principalmente raciocínio visual, todos os modelos experimentam uma queda de desempenho de 35%-55% em relação ao desempenho em questões com maior foco em raciocínio textual. Por fim, nossa análise qualitativa de erros revela categorias específicas de raciocínio visual que são desafiadoras para os LVLMs atuais.
English
Chart understanding presents a unique challenge for large vision-language
models (LVLMs), as it requires the integration of sophisticated textual and
visual reasoning capabilities. However, current LVLMs exhibit a notable
imbalance between these skills, falling short on visual reasoning that is
difficult to perform in text. We conduct a case study using a synthetic dataset
solvable only through visual reasoning and show that model performance degrades
significantly with increasing visual complexity, while human performance
remains robust. We then introduce ChartMuseum, a new Chart Question Answering
(QA) benchmark containing 1,162 expert-annotated questions spanning multiple
reasoning types, curated from real-world charts across 184 sources,
specifically built to evaluate complex visual and textual reasoning. Unlike
prior chart understanding benchmarks -- where frontier models perform similarly
and near saturation -- our benchmark exposes a substantial gap between model
and human performance, while effectively differentiating model capabilities:
although humans achieve 93% accuracy, the best-performing model Gemini-2.5-Pro
attains only 63.0%, and the leading open-source LVLM Qwen2.5-VL-72B-Instruct
achieves only 38.5%. Moreover, on questions requiring primarily visual
reasoning, all models experience a 35%-55% performance drop from
text-reasoning-heavy question performance. Lastly, our qualitative error
analysis reveals specific categories of visual reasoning that are challenging
for current LVLMs.