CharXiv: マルチモーダルLLMにおける現実的なチャート理解のギャップの可視化
CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs
June 26, 2024
著者: Zirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu, Richard Zhu, Kaiqu Liang, Xindi Wu, Haotian Liu, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, Danqi Chen
cs.AI
要旨
チャート理解は、科学論文や財務報告書の分析といった実世界のタスクにマルチモーダル大規模言語モデル(MLLM)を適用する際に重要な役割を果たします。しかし、既存のデータセットは、過度に単純化され均質なチャートとテンプレートベースの質問に焦点を当てることが多く、進捗を過大評価する結果を招いています。我々は、オープンソースモデルがこれらのベンチマークで強力なプロプライエタリモデルを上回るように見える場合でも、わずかに異なるチャートや質問を用いた簡単なストレステストで、性能が最大34.5%低下することを実証しました。本研究では、arXiv論文から2,323の自然で挑戦的かつ多様なチャートを含む包括的な評価スイートであるCharXivを提案します。CharXivには、1)基本的なチャート要素を調べる記述的な質問と、2)チャート内の複雑な視覚要素にわたる情報を統合する必要がある推論的な質問の2種類の質問が含まれています。品質を確保するため、すべてのチャートと質問は人間の専門家によって手作業で選定、キュレーション、検証されています。我々の結果は、最高のプロプライエタリモデル(GPT-4o、47.1%の精度)と最高のオープンソースモデル(InternVL Chat V1.5、29.2%の精度)の推論能力の間に、これまで過小評価されていた大きなギャップがあることを明らかにしています。すべてのモデルは、人間の性能(80.5%)にはるかに及ばず、既存のMLLMのチャート理解能力の弱点を浮き彫りにしています。我々は、CharXivがより現実的で忠実な進捗の測定を提供することで、MLLMのチャート理解に関する将来の研究を促進することを期待しています。プロジェクトページとリーダーボード: https://charxiv.github.io/
English
Chart understanding plays a pivotal role when applying Multimodal Large
Language Models (MLLMs) to real-world tasks such as analyzing scientific papers
or financial reports. However, existing datasets often focus on oversimplified
and homogeneous charts with template-based questions, leading to an
over-optimistic measure of progress. We demonstrate that although open-source
models can appear to outperform strong proprietary models on these benchmarks,
a simple stress test with slightly different charts or questions can
deteriorate performance by up to 34.5%. In this work, we propose CharXiv, a
comprehensive evaluation suite involving 2,323 natural, challenging, and
diverse charts from arXiv papers. CharXiv includes two types of questions: 1)
descriptive questions about examining basic chart elements and 2) reasoning
questions that require synthesizing information across complex visual elements
in the chart. To ensure quality, all charts and questions are handpicked,
curated, and verified by human experts. Our results reveal a substantial,
previously underestimated gap between the reasoning skills of the strongest
proprietary model (i.e., GPT-4o), which achieves 47.1% accuracy, and the
strongest open-source model (i.e., InternVL Chat V1.5), which achieves 29.2%.
All models lag far behind human performance of 80.5%, underscoring weaknesses
in the chart understanding capabilities of existing MLLMs. We hope CharXiv
facilitates future research on MLLM chart understanding by providing a more
realistic and faithful measure of progress. Project page and leaderboard:
https://charxiv.github.io/Summary
AI-Generated Summary