GRAB: Un desafiante banco de pruebas de análisis de gráficos para grandes modelos multimodales
GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models
August 21, 2024
Autores: Jonathan Roberts, Kai Han, Samuel Albanie
cs.AI
Resumen
Los modelos multimodales grandes (LMMs) han demostrado habilidades en diversas tareas visuales. Aunque existen numerosos benchmarks conocidos para evaluar el rendimiento de los modelos, cada vez presentan una capacidad limitada. Por lo tanto, hay una necesidad apremiante de una nueva generación de benchmarks lo suficientemente desafiantes para la próxima generación de LMMs. Un área en la que los LMMs muestran potencial es el análisis de grafos, específicamente, las tareas que un analista podría realizar típicamente al interpretar figuras, como estimar la media, intercepciones o correlaciones de funciones y series de datos. En este trabajo, presentamos GRAB, un benchmark de análisis de grafos, adecuado para los LMMs actuales y futuros de vanguardia. Nuestro benchmark es completamente sintético, garantizando preguntas de alta calidad y libres de ruido. GRAB consta de 2170 preguntas, que abarcan cuatro tareas y 23 propiedades de grafos. Evaluamos 20 LMMs en GRAB, encontrando que es un benchmark desafiante, con el modelo de mejor rendimiento alcanzando solo un 21.7% de puntuación. Finalmente, realizamos varias ablaciones para investigar dónde los modelos tienen éxito y encuentran dificultades. Publicamos GRAB para fomentar el progreso en este importante y creciente dominio.
English
Large multimodal models (LMMs) have exhibited proficiencies across many
visual tasks. Although numerous well-known benchmarks exist to evaluate model
performance, they increasingly have insufficient headroom. As such, there is a
pressing need for a new generation of benchmarks challenging enough for the
next generation of LMMs. One area that LMMs show potential is graph analysis,
specifically, the tasks an analyst might typically perform when interpreting
figures such as estimating the mean, intercepts or correlations of functions
and data series. In this work, we introduce GRAB, a graph analysis benchmark,
fit for current and future frontier LMMs. Our benchmark is entirely synthetic,
ensuring high-quality, noise-free questions. GRAB is comprised of 2170
questions, covering four tasks and 23 graph properties. We evaluate 20 LMMs on
GRAB, finding it to be a challenging benchmark, with the highest performing
model attaining a score of just 21.7%. Finally, we conduct various ablations to
investigate where the models succeed and struggle. We release GRAB to encourage
progress in this important, growing domain.Summary
AI-Generated Summary