GRAB: Сложный бенчмарк для анализа графов для крупных мультимодальных моделей
GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models
August 21, 2024
Авторы: Jonathan Roberts, Kai Han, Samuel Albanie
cs.AI
Аннотация
Большие мультимодальные модели (LMM) проявили свою компетентность во многих визуальных задачах. Хотя существует множество хорошо известных бенчмарков для оценки производительности модели, они все чаще оказываются недостаточными. В связи с этим существует настоятельная необходимость в новом поколении бенчмарков, достаточно сложных для следующего поколения LMM. Одной из областей, в которой LMM проявляют потенциал, является анализ графиков, в частности задачи, которые аналитик обычно выполняет при интерпретации графиков, такие как оценка среднего, пересечений или корреляций функций и данных. В данной работе мы представляем GRAB, бенчмарк анализа графиков, подходящий для текущих и будущих фронтовых LMM. Наш бенчмарк полностью синтетический, обеспечивая высококачественные, лишенные шума вопросы. GRAB состоит из 2170 вопросов, охватывающих четыре задачи и 23 свойства графиков. Мы оценили 20 LMM на GRAB и обнаружили, что это сложный бенчмарк, лучшая модель набрала всего 21,7%. Наконец, мы проводим различные абляции, чтобы исследовать, где модели преуспевают и сталкиваются с трудностями. Мы выпускаем GRAB, чтобы поощрить прогресс в этой важной, развивающейся области.
English
Large multimodal models (LMMs) have exhibited proficiencies across many
visual tasks. Although numerous well-known benchmarks exist to evaluate model
performance, they increasingly have insufficient headroom. As such, there is a
pressing need for a new generation of benchmarks challenging enough for the
next generation of LMMs. One area that LMMs show potential is graph analysis,
specifically, the tasks an analyst might typically perform when interpreting
figures such as estimating the mean, intercepts or correlations of functions
and data series. In this work, we introduce GRAB, a graph analysis benchmark,
fit for current and future frontier LMMs. Our benchmark is entirely synthetic,
ensuring high-quality, noise-free questions. GRAB is comprised of 2170
questions, covering four tasks and 23 graph properties. We evaluate 20 LMMs on
GRAB, finding it to be a challenging benchmark, with the highest performing
model attaining a score of just 21.7%. Finally, we conduct various ablations to
investigate where the models succeed and struggle. We release GRAB to encourage
progress in this important, growing domain.Summary
AI-Generated Summary