ChatPaper.aiChatPaper

大規模なマルチモーダルモデル向けの難解なグラフ分析ベンチマーク「GRAB」

GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models

August 21, 2024
著者: Jonathan Roberts, Kai Han, Samuel Albanie
cs.AI

要旨

大規模多モーダルモデル(LMMs)は多くの視覚タスクで優れた能力を示しています。モデルの性能を評価するための多数のよく知られたベンチマークが存在しますが、これらはますます十分な余裕がなくなっています。そのため、次世代のLMMsに十分な挑戦を与える新しい世代のベンチマークが必要とされています。LMMsが潜在的な可能性を示す1つの分野は、グラフ解析であり、特に、図表を解釈する際にアナリストが通常行うタスク、つまり関数やデータ系列の平均値、切片、相関を推定することです。本研究では、現在および将来の最先端LMMsに適したグラフ解析ベンチマークであるGRABを紹介します。当社のベンチマークは完全に合成されており、高品質でノイズのない問題を提供します。GRABには、4つのタスクと23のグラフ特性をカバーする2170の問題が含まれています。GRABで20のLMMsを評価し、最も性能の高いモデルがわずか21.7%のスコアを達成するなど、これは厳しいベンチマークであることがわかりました。最後に、モデルの成功と課題がある場所を調査するためにさまざまな削除実験を実施します。私たちは、この重要で成長している領域での進歩を促進するためにGRABを公開します。
English
Large multimodal models (LMMs) have exhibited proficiencies across many visual tasks. Although numerous well-known benchmarks exist to evaluate model performance, they increasingly have insufficient headroom. As such, there is a pressing need for a new generation of benchmarks challenging enough for the next generation of LMMs. One area that LMMs show potential is graph analysis, specifically, the tasks an analyst might typically perform when interpreting figures such as estimating the mean, intercepts or correlations of functions and data series. In this work, we introduce GRAB, a graph analysis benchmark, fit for current and future frontier LMMs. Our benchmark is entirely synthetic, ensuring high-quality, noise-free questions. GRAB is comprised of 2170 questions, covering four tasks and 23 graph properties. We evaluate 20 LMMs on GRAB, finding it to be a challenging benchmark, with the highest performing model attaining a score of just 21.7%. Finally, we conduct various ablations to investigate where the models succeed and struggle. We release GRAB to encourage progress in this important, growing domain.

Summary

AI-Generated Summary

PDF92November 16, 2024