ChartQAPro: Um Benchmark Mais Diversificado e Desafiador para Resposta a Perguntas sobre Gráficos
ChartQAPro: A More Diverse and Challenging Benchmark for Chart Question Answering
April 7, 2025
Autores: Ahmed Masry, Mohammed Saidul Islam, Mahir Ahmed, Aayush Bajaj, Firoz Kabir, Aaryaman Kartha, Md Tahmid Rahman Laskar, Mizanur Rahman, Shadikur Rahman, Mehrad Shahmohammadi, Megh Thakkar, Md Rizwan Parvez, Enamul Hoque, Shafiq Joty
cs.AI
Resumo
Gráficos são onipresentes, pois as pessoas frequentemente os utilizam para analisar dados, responder perguntas e descobrir insights críticos. No entanto, realizar tarefas analíticas complexas com gráficos exige um esforço perceptivo e cognitivo significativo. Sistemas de Resposta a Perguntas sobre Gráficos (Chart Question Answering - CQA) automatizam esse processo, permitindo que modelos interpretem e raciocinem com representações visuais de dados. No entanto, benchmarks existentes, como o ChartQA, carecem de diversidade do mundo real e recentemente mostraram saturação de desempenho com modelos modernos de visão e linguagem de grande escala (Large Vision-Language Models - LVLMs). Para abordar essas limitações, introduzimos o ChartQAPro, um novo benchmark que inclui 1.341 gráficos de 157 fontes diversas, abrangendo vários tipos de gráficos, incluindo infográficos e painéis, e apresentando 1.948 perguntas de vários tipos, como múltipla escolha, conversacionais, hipotéticas e sem resposta, para melhor refletir os desafios do mundo real. Nossas avaliações com 21 modelos mostram uma queda substancial no desempenho dos LVLMs no ChartQAPro; por exemplo, o Claude Sonnet 3.5 pontua 90,5% no ChartQA, mas apenas 55,81% no ChartQAPro, destacando a complexidade do raciocínio com gráficos. Complementamos nossas descobertas com análises detalhadas de erros e estudos de ablação, identificando desafios e oportunidades-chave para avançar os LVLMs na compreensão e raciocínio com gráficos. Disponibilizamos o ChartQAPro em https://github.com/vis-nlp/ChartQAPro.
English
Charts are ubiquitous, as people often use them to analyze data, answer
questions, and discover critical insights. However, performing complex
analytical tasks with charts requires significant perceptual and cognitive
effort. Chart Question Answering (CQA) systems automate this process by
enabling models to interpret and reason with visual representations of data.
However, existing benchmarks like ChartQA lack real-world diversity and have
recently shown performance saturation with modern large vision-language models
(LVLMs). To address these limitations, we introduce ChartQAPro, a new benchmark
that includes 1,341 charts from 157 diverse sources, spanning various chart
types, including infographics and dashboards, and featuring 1,948 questions in
various types, such as multiple-choice, conversational, hypothetical, and
unanswerable questions, to better reflect real-world challenges. Our
evaluations with 21 models show a substantial performance drop for LVLMs on
ChartQAPro; e.g., Claude Sonnet 3.5 scores 90.5% on ChartQA but only 55.81% on
ChartQAPro, underscoring the complexity of chart reasoning. We complement our
findings with detailed error analyses and ablation studies, identifying key
challenges and opportunities for advancing LVLMs in chart understanding and
reasoning. We release ChartQAPro at https://github.com/vis-nlp/ChartQAPro.Summary
AI-Generated Summary