GRAB: Um Desafiador Benchmark de Análise de Grafos para Grandes Modelos Multimodais
GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models
August 21, 2024
Autores: Jonathan Roberts, Kai Han, Samuel Albanie
cs.AI
Resumo
Grandes modelos multimodais (LMMs) têm demonstrado proficiência em diversas tarefas visuais. Embora existam inúmeros benchmarks conhecidos para avaliar o desempenho do modelo, eles cada vez mais apresentam limitações. Portanto, há uma necessidade urgente de uma nova geração de benchmarks desafiadores o suficiente para a próxima geração de LMMs. Uma área em que os LMMs mostram potencial é a análise de gráficos, especificamente as tarefas que um analista normalmente realiza ao interpretar figuras, como estimar a média, interceptações ou correlações de funções e séries de dados. Neste trabalho, apresentamos o GRAB, um benchmark de análise de gráficos, adequado para os atuais e futuros LMMs de ponta. Nosso benchmark é totalmente sintético, garantindo perguntas de alta qualidade e livres de ruído. O GRAB é composto por 2170 perguntas, abrangendo quatro tarefas e 23 propriedades de gráficos. Avaliamos 20 LMMs no GRAB, constatando que é um benchmark desafiador, com o modelo de melhor desempenho alcançando uma pontuação de apenas 21,7%. Por fim, realizamos várias ablações para investigar onde os modelos têm sucesso e enfrentam dificuldades. Lançamos o GRAB para incentivar o progresso nesse importante e crescente domínio.
English
Large multimodal models (LMMs) have exhibited proficiencies across many
visual tasks. Although numerous well-known benchmarks exist to evaluate model
performance, they increasingly have insufficient headroom. As such, there is a
pressing need for a new generation of benchmarks challenging enough for the
next generation of LMMs. One area that LMMs show potential is graph analysis,
specifically, the tasks an analyst might typically perform when interpreting
figures such as estimating the mean, intercepts or correlations of functions
and data series. In this work, we introduce GRAB, a graph analysis benchmark,
fit for current and future frontier LMMs. Our benchmark is entirely synthetic,
ensuring high-quality, noise-free questions. GRAB is comprised of 2170
questions, covering four tasks and 23 graph properties. We evaluate 20 LMMs on
GRAB, finding it to be a challenging benchmark, with the highest performing
model attaining a score of just 21.7%. Finally, we conduct various ablations to
investigate where the models succeed and struggle. We release GRAB to encourage
progress in this important, growing domain.Summary
AI-Generated Summary