GRAB: Een Uitdagende GRafanalyse Benchmark voor Grote Multimodale Modellen
GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models
August 21, 2024
Auteurs: Jonathan Roberts, Kai Han, Samuel Albanie
cs.AI
Samenvatting
Grote multimodale modellen (LMMs) hebben bekwaamheden getoond in diverse visuele taken. Hoewel er tal van bekende benchmarks bestaan om modelprestaties te evalueren, bieden deze steeds minder ruimte voor verbetering. Daarom is er een dringende behoefte aan een nieuwe generatie benchmarks die uitdagend genoeg zijn voor de volgende generatie LMMs. Een gebied waar LMMs potentieel tonen, is grafiekanalyse, specifiek de taken die een analist typisch zou uitvoeren bij het interpreteren van figuren, zoals het schatten van het gemiddelde, snijpunten of correlaties van functies en datareeksen. In dit werk introduceren we GRAB, een grafiekanalysebenchmark, geschikt voor huidige en toekomstige frontier LMMs. Onze benchmark is volledig synthetisch, wat zorgt voor hoogwaardige, ruisvrije vragen. GRAB bestaat uit 2170 vragen, verdeeld over vier taken en 23 grafiekeigenschappen. We evalueren 20 LMMs op GRAB en constateren dat het een uitdagende benchmark is, waarbij het best presterende model slechts een score van 21,7% behaalt. Ten slotte voeren we diverse ablatieonderzoeken uit om te onderzoeken waar de modellen slagen en waar ze moeite mee hebben. We maken GRAB openbaar om vooruitgang in dit belangrijke, groeiende domein te stimuleren.
English
Large multimodal models (LMMs) have exhibited proficiencies across many
visual tasks. Although numerous well-known benchmarks exist to evaluate model
performance, they increasingly have insufficient headroom. As such, there is a
pressing need for a new generation of benchmarks challenging enough for the
next generation of LMMs. One area that LMMs show potential is graph analysis,
specifically, the tasks an analyst might typically perform when interpreting
figures such as estimating the mean, intercepts or correlations of functions
and data series. In this work, we introduce GRAB, a graph analysis benchmark,
fit for current and future frontier LMMs. Our benchmark is entirely synthetic,
ensuring high-quality, noise-free questions. GRAB is comprised of 2170
questions, covering four tasks and 23 graph properties. We evaluate 20 LMMs on
GRAB, finding it to be a challenging benchmark, with the highest performing
model attaining a score of just 21.7%. Finally, we conduct various ablations to
investigate where the models succeed and struggle. We release GRAB to encourage
progress in this important, growing domain.Summary
AI-Generated Summary