대규모 다중 모달 모델을 위한 도전적인 그래프 분석 벤치마크인 GRAB
GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models
August 21, 2024
저자: Jonathan Roberts, Kai Han, Samuel Albanie
cs.AI
초록
대규모 다중모달 모델(LMMs)은 여러 시각적 작업에서 뛰어난 능력을 보여왔습니다. 모델 성능을 평가하기 위한 많은 잘 알려진 벤치마크가 존재하지만, 이러한 벤치마크들은 점차 한계에 도달하고 있습니다. 따라서, 다음 세대 LMMs에 대한 도전적인 새로운 세대의 벤치마크가 절실합니다. LMMs가 잠재력을 보이는 한 분야는 그래프 분석이며, 특히, 그림을 해석할 때 분석가가 일반적으로 수행할 작업들인 평균, 절편 또는 함수 및 데이터 시리즈의 상관 관계 추정 등이 있습니다. 본 연구에서는 현재 및 미래의 선두 LMMs에 적합한 그래프 분석 벤치마크인 GRAB를 소개합니다. 저희의 벤치마크는 완전히 합성되어 있어 고품질이며 노이즈가 없는 질문들을 보장합니다. GRAB는 2170개의 질문으로 구성되어 있으며, 네 가지 작업과 23가지 그래프 속성을 다룹니다. 우리는 20개의 LMMs를 GRAB에서 평가하여, 이를 극도로 도전적인 벤치마크로 확인했으며, 최고 성능 모델이 21.7%의 점수를 얻었습니다. 마지막으로, 모델이 성공하고 어려움을 겪는 부분을 조사하기 위해 다양한 제거 실험을 실시합니다. 우리는 이 중요하고 성장 중인 영역에서 진전을 촉진하기 위해 GRAB를 공개합니다.
English
Large multimodal models (LMMs) have exhibited proficiencies across many
visual tasks. Although numerous well-known benchmarks exist to evaluate model
performance, they increasingly have insufficient headroom. As such, there is a
pressing need for a new generation of benchmarks challenging enough for the
next generation of LMMs. One area that LMMs show potential is graph analysis,
specifically, the tasks an analyst might typically perform when interpreting
figures such as estimating the mean, intercepts or correlations of functions
and data series. In this work, we introduce GRAB, a graph analysis benchmark,
fit for current and future frontier LMMs. Our benchmark is entirely synthetic,
ensuring high-quality, noise-free questions. GRAB is comprised of 2170
questions, covering four tasks and 23 graph properties. We evaluate 20 LMMs on
GRAB, finding it to be a challenging benchmark, with the highest performing
model attaining a score of just 21.7%. Finally, we conduct various ablations to
investigate where the models succeed and struggle. We release GRAB to encourage
progress in this important, growing domain.Summary
AI-Generated Summary