GRAB : Un défi de référence pour l'analyse de graphes pour les grands modèles multimodaux

papers.abstract

Les grands modèles multimodaux (LMM) ont montré des compétences dans de nombreuses tâches visuelles. Bien qu'il existe de nombreux benchmarks bien connus pour évaluer les performances des modèles, ceux-ci atteignent de plus en plus leurs limites. Ainsi, il est urgent de créer une nouvelle génération de benchmarks suffisamment stimulants pour la prochaine génération de LMM. Un domaine dans lequel les LMM montrent un potentiel est l'analyse de graphes, en particulier les tâches qu'un analyste pourrait généralement effectuer lors de l'interprétation de figures, telles que l'estimation de la moyenne, des intercepts ou des corrélations de fonctions et de séries de données. Dans ce travail, nous présentons GRAB, un benchmark d'analyse de graphes, adapté aux LMM actuels et futurs de pointe. Notre benchmark est entièrement synthétique, garantissant des questions de haute qualité et sans bruit. GRAB est composé de 2170 questions, couvrant quatre tâches et 23 propriétés de graphes. Nous évaluons 20 LMM sur GRAB, constatant qu'il s'agit d'un benchmark stimulant, le modèle le plus performant n'atteignant qu'un score de 21,7 %. Enfin, nous menons diverses ablations pour étudier les points forts et les difficultés des modèles. Nous publions GRAB pour encourager les progrès dans ce domaine important et en pleine croissance.

English

Large multimodal models (LMMs) have exhibited proficiencies across many visual tasks. Although numerous well-known benchmarks exist to evaluate model performance, they increasingly have insufficient headroom. As such, there is a pressing need for a new generation of benchmarks challenging enough for the next generation of LMMs. One area that LMMs show potential is graph analysis, specifically, the tasks an analyst might typically perform when interpreting figures such as estimating the mean, intercepts or correlations of functions and data series. In this work, we introduce GRAB, a graph analysis benchmark, fit for current and future frontier LMMs. Our benchmark is entirely synthetic, ensuring high-quality, noise-free questions. GRAB is comprised of 2170 questions, covering four tasks and 23 graph properties. We evaluate 20 LMMs on GRAB, finding it to be a challenging benchmark, with the highest performing model attaining a score of just 21.7%. Finally, we conduct various ablations to investigate where the models succeed and struggle. We release GRAB to encourage progress in this important, growing domain.

GRAB : Un défi de référence pour l'analyse de graphes pour les grands modèles multimodaux

GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models

papers.abstract

Support