GRAB: Ein anspruchsvoller Benchmark für die Analyse von Graphen für große multimodale Modelle
GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models
August 21, 2024
Autoren: Jonathan Roberts, Kai Han, Samuel Albanie
cs.AI
Zusammenfassung
Große multimodale Modelle (LMMs) haben Fähigkeiten in vielen visuellen Aufgaben gezeigt. Obwohl zahlreiche bekannte Benchmarks zur Bewertung der Modellleistung existieren, reicht ihr Leistungsspielraum zunehmend nicht aus. Daher besteht ein dringender Bedarf an einer neuen Generation von Benchmarks, die herausfordernd genug für die nächste Generation von LMMs sind. Ein Bereich, in dem LMMs Potenzial zeigen, ist die Graphenanalyse, insbesondere die Aufgaben, die ein Analyst typischerweise bei der Interpretation von Abbildungen durchführt, wie die Schätzung des Mittelwerts, der Schnittpunkte oder Korrelationen von Funktionen und Datenreihen. In dieser Arbeit stellen wir GRAB vor, einen Graphenanalyse-Benchmark, der für aktuelle und zukünftige Spitzen-LMMs geeignet ist. Unser Benchmark ist vollständig synthetisch und stellt sicher, dass die Fragen von hoher Qualität und frei von Rauschen sind. GRAB besteht aus 2170 Fragen, die vier Aufgaben und 23 Grapheneigenschaften abdecken. Wir bewerten 20 LMMs anhand von GRAB und stellen fest, dass es sich um einen anspruchsvollen Benchmark handelt, wobei das am besten abschneidende Modell nur einen Punktestand von 21,7% erreicht. Schließlich führen wir verschiedene Ablationen durch, um zu untersuchen, wo die Modelle erfolgreich sind und wo sie Schwierigkeiten haben. Wir veröffentlichen GRAB, um Fortschritte in diesem wichtigen, wachsenden Bereich zu fördern.
English
Large multimodal models (LMMs) have exhibited proficiencies across many
visual tasks. Although numerous well-known benchmarks exist to evaluate model
performance, they increasingly have insufficient headroom. As such, there is a
pressing need for a new generation of benchmarks challenging enough for the
next generation of LMMs. One area that LMMs show potential is graph analysis,
specifically, the tasks an analyst might typically perform when interpreting
figures such as estimating the mean, intercepts or correlations of functions
and data series. In this work, we introduce GRAB, a graph analysis benchmark,
fit for current and future frontier LMMs. Our benchmark is entirely synthetic,
ensuring high-quality, noise-free questions. GRAB is comprised of 2170
questions, covering four tasks and 23 graph properties. We evaluate 20 LMMs on
GRAB, finding it to be a challenging benchmark, with the highest performing
model attaining a score of just 21.7%. Finally, we conduct various ablations to
investigate where the models succeed and struggle. We release GRAB to encourage
progress in this important, growing domain.Summary
AI-Generated Summary