GRAB : Un défi de référence pour l'analyse de graphes pour les grands modèles multimodaux
GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models
August 21, 2024
Auteurs: Jonathan Roberts, Kai Han, Samuel Albanie
cs.AI
Résumé
Les grands modèles multimodaux (LMM) ont montré des compétences dans de nombreuses tâches visuelles. Bien qu'il existe de nombreux benchmarks bien connus pour évaluer les performances des modèles, ceux-ci atteignent de plus en plus leurs limites. Ainsi, il est urgent de créer une nouvelle génération de benchmarks suffisamment stimulants pour la prochaine génération de LMM. Un domaine dans lequel les LMM montrent un potentiel est l'analyse de graphes, en particulier les tâches qu'un analyste pourrait généralement effectuer lors de l'interprétation de figures, telles que l'estimation de la moyenne, des intercepts ou des corrélations de fonctions et de séries de données. Dans ce travail, nous présentons GRAB, un benchmark d'analyse de graphes, adapté aux LMM actuels et futurs de pointe. Notre benchmark est entièrement synthétique, garantissant des questions de haute qualité et sans bruit. GRAB est composé de 2170 questions, couvrant quatre tâches et 23 propriétés de graphes. Nous évaluons 20 LMM sur GRAB, constatant qu'il s'agit d'un benchmark stimulant, le modèle le plus performant n'atteignant qu'un score de 21,7 %. Enfin, nous menons diverses ablations pour étudier les points forts et les difficultés des modèles. Nous publions GRAB pour encourager les progrès dans ce domaine important et en pleine croissance.
English
Large multimodal models (LMMs) have exhibited proficiencies across many
visual tasks. Although numerous well-known benchmarks exist to evaluate model
performance, they increasingly have insufficient headroom. As such, there is a
pressing need for a new generation of benchmarks challenging enough for the
next generation of LMMs. One area that LMMs show potential is graph analysis,
specifically, the tasks an analyst might typically perform when interpreting
figures such as estimating the mean, intercepts or correlations of functions
and data series. In this work, we introduce GRAB, a graph analysis benchmark,
fit for current and future frontier LMMs. Our benchmark is entirely synthetic,
ensuring high-quality, noise-free questions. GRAB is comprised of 2170
questions, covering four tasks and 23 graph properties. We evaluate 20 LMMs on
GRAB, finding it to be a challenging benchmark, with the highest performing
model attaining a score of just 21.7%. Finally, we conduct various ablations to
investigate where the models succeed and struggle. We release GRAB to encourage
progress in this important, growing domain.Summary
AI-Generated Summary