GRAB: Un desafiante banco de pruebas de análisis de gráficos para grandes modelos multimodales

Resumen

Los modelos multimodales grandes (LMMs) han demostrado habilidades en diversas tareas visuales. Aunque existen numerosos benchmarks conocidos para evaluar el rendimiento de los modelos, cada vez presentan una capacidad limitada. Por lo tanto, hay una necesidad apremiante de una nueva generación de benchmarks lo suficientemente desafiantes para la próxima generación de LMMs. Un área en la que los LMMs muestran potencial es el análisis de grafos, específicamente, las tareas que un analista podría realizar típicamente al interpretar figuras, como estimar la media, intercepciones o correlaciones de funciones y series de datos. En este trabajo, presentamos GRAB, un benchmark de análisis de grafos, adecuado para los LMMs actuales y futuros de vanguardia. Nuestro benchmark es completamente sintético, garantizando preguntas de alta calidad y libres de ruido. GRAB consta de 2170 preguntas, que abarcan cuatro tareas y 23 propiedades de grafos. Evaluamos 20 LMMs en GRAB, encontrando que es un benchmark desafiante, con el modelo de mejor rendimiento alcanzando solo un 21.7% de puntuación. Finalmente, realizamos varias ablaciones para investigar dónde los modelos tienen éxito y encuentran dificultades. Publicamos GRAB para fomentar el progreso en este importante y creciente dominio.

English

Large multimodal models (LMMs) have exhibited proficiencies across many visual tasks. Although numerous well-known benchmarks exist to evaluate model performance, they increasingly have insufficient headroom. As such, there is a pressing need for a new generation of benchmarks challenging enough for the next generation of LMMs. One area that LMMs show potential is graph analysis, specifically, the tasks an analyst might typically perform when interpreting figures such as estimating the mean, intercepts or correlations of functions and data series. In this work, we introduce GRAB, a graph analysis benchmark, fit for current and future frontier LMMs. Our benchmark is entirely synthetic, ensuring high-quality, noise-free questions. GRAB is comprised of 2170 questions, covering four tasks and 23 graph properties. We evaluate 20 LMMs on GRAB, finding it to be a challenging benchmark, with the highest performing model attaining a score of just 21.7%. Finally, we conduct various ablations to investigate where the models succeed and struggle. We release GRAB to encourage progress in this important, growing domain.

GRAB: Un desafiante banco de pruebas de análisis de gráficos para grandes modelos multimodales

GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models

Resumen

Support