GRAB: Un Benchmark Impegnativo per l'Analisi di Grafi per Modelli Multimodali di Grandi Dimensioni
GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models
August 21, 2024
Autori: Jonathan Roberts, Kai Han, Samuel Albanie
cs.AI
Abstract
I modelli multimodali di grandi dimensioni (LMM) hanno dimostrato competenze in numerosi compiti visivi. Sebbene esistano molti benchmark noti per valutare le prestazioni dei modelli, questi stanno diventando sempre più insufficienti in termini di margine di miglioramento. Di conseguenza, c'è un urgente bisogno di una nuova generazione di benchmark abbastanza impegnativi per la prossima generazione di LMM. Un'area in cui i LMM mostrano potenziale è l'analisi di grafici, in particolare i compiti che un analista potrebbe tipicamente svolgere quando interpreta figure, come stimare la media, gli intercetti o le correlazioni di funzioni e serie di dati. In questo lavoro, introduciamo GRAB, un benchmark per l'analisi di grafici, adatto agli attuali e futuri LMM all'avanguardia. Il nostro benchmark è interamente sintetico, garantendo domande di alta qualità e prive di rumore. GRAB è composto da 2170 domande, che coprono quattro compiti e 23 proprietà dei grafici. Valutiamo 20 LMM su GRAB, riscontrando che si tratta di un benchmark impegnativo, con il modello con le migliori prestazioni che raggiunge un punteggio di appena il 21,7%. Infine, conduciamo varie ablazioni per indagare dove i modelli hanno successo e dove incontrano difficoltà. Rilasciamo GRAB per incoraggiare progressi in questo importante e crescente dominio.
English
Large multimodal models (LMMs) have exhibited proficiencies across many
visual tasks. Although numerous well-known benchmarks exist to evaluate model
performance, they increasingly have insufficient headroom. As such, there is a
pressing need for a new generation of benchmarks challenging enough for the
next generation of LMMs. One area that LMMs show potential is graph analysis,
specifically, the tasks an analyst might typically perform when interpreting
figures such as estimating the mean, intercepts or correlations of functions
and data series. In this work, we introduce GRAB, a graph analysis benchmark,
fit for current and future frontier LMMs. Our benchmark is entirely synthetic,
ensuring high-quality, noise-free questions. GRAB is comprised of 2170
questions, covering four tasks and 23 graph properties. We evaluate 20 LMMs on
GRAB, finding it to be a challenging benchmark, with the highest performing
model attaining a score of just 21.7%. Finally, we conduct various ablations to
investigate where the models succeed and struggle. We release GRAB to encourage
progress in this important, growing domain.