CharXiv: 다중모드 LLM에서 현실적인 차트 이해의 격차 분석
CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs
June 26, 2024
저자: Zirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu, Richard Zhu, Kaiqu Liang, Xindi Wu, Haotian Liu, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, Danqi Chen
cs.AI
초록
차트 이해는 과학 논문이나 재무 보고서 분석과 같은 실제 작업에 멀티모달 대형 언어 모델(MLLM)을 적용할 때 핵심적인 역할을 합니다. 그러나 기존 데이터셋은 지나치게 단순화되고 동질적인 차트와 템플릿 기반 질문에 초점을 맞추는 경향이 있어, 진전을 과도하게 낙관적으로 측정하는 결과를 초래합니다. 우리는 오픈소스 모델이 이러한 벤치마크에서 강력한 사유 모델을 능가하는 것처럼 보일 수 있지만, 약간 다른 차트나 질문으로 간단한 스트레스 테스트를 수행하면 성능이 최대 34.5%까지 저하될 수 있음을 보여줍니다. 본 연구에서는 arXiv 논문에서 추출한 2,323개의 자연스럽고 도전적이며 다양한 차트를 포함한 포괄적인 평가 도구인 CharXiv를 제안합니다. CharXiv는 두 가지 유형의 질문을 포함합니다: 1) 기본 차트 요소를 검토하는 기술적 질문과 2) 복잡한 시각적 요소 간 정보를 종합해야 하는 추론적 질문입니다. 질문과 차트의 품질을 보장하기 위해 모든 자료는 인간 전문가가 직접 선별, 정리 및 검증했습니다. 우리의 결과는 가장 강력한 사유 모델(예: GPT-4o)의 47.1% 정확도와 가장 강력한 오픈소스 모델(예: InternVL Chat V1.5)의 29.2% 정확도 사이에 이전에 과소평가된 상당한 격차가 있음을 보여줍니다. 모든 모델은 인간의 80.5% 성능에 크게 뒤처져, 기존 MLLM의 차트 이해 능력의 약점을 강조합니다. 우리는 CharXiv가 더 현실적이고 신뢰할 수 있는 진전 측정을 제공함으로써 MLLM 차트 이해에 대한 미래 연구를 촉진하기를 바랍니다. 프로젝트 페이지 및 리더보드: https://charxiv.github.io/
English
Chart understanding plays a pivotal role when applying Multimodal Large
Language Models (MLLMs) to real-world tasks such as analyzing scientific papers
or financial reports. However, existing datasets often focus on oversimplified
and homogeneous charts with template-based questions, leading to an
over-optimistic measure of progress. We demonstrate that although open-source
models can appear to outperform strong proprietary models on these benchmarks,
a simple stress test with slightly different charts or questions can
deteriorate performance by up to 34.5%. In this work, we propose CharXiv, a
comprehensive evaluation suite involving 2,323 natural, challenging, and
diverse charts from arXiv papers. CharXiv includes two types of questions: 1)
descriptive questions about examining basic chart elements and 2) reasoning
questions that require synthesizing information across complex visual elements
in the chart. To ensure quality, all charts and questions are handpicked,
curated, and verified by human experts. Our results reveal a substantial,
previously underestimated gap between the reasoning skills of the strongest
proprietary model (i.e., GPT-4o), which achieves 47.1% accuracy, and the
strongest open-source model (i.e., InternVL Chat V1.5), which achieves 29.2%.
All models lag far behind human performance of 80.5%, underscoring weaknesses
in the chart understanding capabilities of existing MLLMs. We hope CharXiv
facilitates future research on MLLM chart understanding by providing a more
realistic and faithful measure of progress. Project page and leaderboard:
https://charxiv.github.io/Summary
AI-Generated Summary