ChartQAPro: 차트 질의응답을 위한 더 다양하고 도전적인 벤치마크
ChartQAPro: A More Diverse and Challenging Benchmark for Chart Question Answering
April 7, 2025
저자: Ahmed Masry, Mohammed Saidul Islam, Mahir Ahmed, Aayush Bajaj, Firoz Kabir, Aaryaman Kartha, Md Tahmid Rahman Laskar, Mizanur Rahman, Shadikur Rahman, Mehrad Shahmohammadi, Megh Thakkar, Md Rizwan Parvez, Enamul Hoque, Shafiq Joty
cs.AI
초록
차트는 데이터를 분석하고 질문에 답하며 중요한 통찰을 발견하기 위해 사람들이 자주 사용하기 때문에 어디에서나 볼 수 있습니다. 그러나 차트를 사용하여 복잡한 분석 작업을 수행하려면 상당한 지각적 및 인지적 노력이 필요합니다. 차트 질문 응답(Chart Question Answering, CQA) 시스템은 모델이 데이터의 시각적 표현을 해석하고 추론할 수 있도록 함으로써 이 과정을 자동화합니다. 그러나 ChartQA와 같은 기존 벤치마크는 현실 세계의 다양성이 부족하며, 최근에는 현대적인 대형 시각-언어 모델(Large Vision-Language Models, LVLMs)의 성능이 포화 상태에 이르렀습니다. 이러한 한계를 해결하기 위해 우리는 ChartQAPro라는 새로운 벤치마크를 소개합니다. 이 벤치마크는 157개의 다양한 출처에서 수집된 1,341개의 차트를 포함하며, 인포그래픽과 대시보드를 포함한 다양한 차트 유형과 객관식, 대화형, 가설적, 그리고 답변이 불가능한 질문 등 다양한 유형의 1,948개의 질문을 제공하여 현실 세계의 도전을 더 잘 반영합니다. 21개의 모델을 사용한 평가 결과, LVLMs의 성능이 ChartQAPro에서 크게 하락했음을 확인했습니다. 예를 들어, Claude Sonnet 3.5는 ChartQA에서 90.5%의 점수를 기록했지만 ChartQAPro에서는 55.81%에 그쳤으며, 이는 차트 추론의 복잡성을 강조합니다. 우리는 이러한 결과를 보완하기 위해 상세한 오류 분석과 제거 연구를 수행하여 LVLMs의 차트 이해 및 추론 능력을 향상시키기 위한 주요 도전 과제와 기회를 식별했습니다. 우리는 ChartQAPro를 https://github.com/vis-nlp/ChartQAPro에서 공개합니다.
English
Charts are ubiquitous, as people often use them to analyze data, answer
questions, and discover critical insights. However, performing complex
analytical tasks with charts requires significant perceptual and cognitive
effort. Chart Question Answering (CQA) systems automate this process by
enabling models to interpret and reason with visual representations of data.
However, existing benchmarks like ChartQA lack real-world diversity and have
recently shown performance saturation with modern large vision-language models
(LVLMs). To address these limitations, we introduce ChartQAPro, a new benchmark
that includes 1,341 charts from 157 diverse sources, spanning various chart
types, including infographics and dashboards, and featuring 1,948 questions in
various types, such as multiple-choice, conversational, hypothetical, and
unanswerable questions, to better reflect real-world challenges. Our
evaluations with 21 models show a substantial performance drop for LVLMs on
ChartQAPro; e.g., Claude Sonnet 3.5 scores 90.5% on ChartQA but only 55.81% on
ChartQAPro, underscoring the complexity of chart reasoning. We complement our
findings with detailed error analyses and ablation studies, identifying key
challenges and opportunities for advancing LVLMs in chart understanding and
reasoning. We release ChartQAPro at https://github.com/vis-nlp/ChartQAPro.Summary
AI-Generated Summary