SEED-Bench: Avaliação de Modelos de Linguagem Multimodais com Compreensão Generativa
SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension
July 30, 2023
Autores: Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, Ying Shan
cs.AI
Resumo
Com base em poderosos Modelos de Linguagem de Grande Escala (LLMs), os recentes Modelos Multimodais de Linguagem de Grande Escala (MLLMs) ganharam destaque como uma área de pesquisa fundamental, exibindo uma capacidade notável tanto para compreensão quanto para geração. Neste trabalho, abordamos a avaliação da compreensão gerativa em MLLMs como um passo preliminar para uma avaliação abrangente de modelos generativos, introduzindo um benchmark denominado SEED-Bench. O SEED-Bench consiste em 19 mil questões de múltipla escolha com anotações humanas precisas (6 vezes maior do que os benchmarks existentes), abrangendo 12 dimensões de avaliação, incluindo a compreensão das modalidades de imagem e vídeo. Desenvolvemos um pipeline avançado para gerar questões de múltipla escolha que visam dimensões específicas de avaliação, integrando processos de filtragem automática e verificação manual. Questões de múltipla escolha com opções de resposta correta derivadas de anotações humanas permitem uma avaliação objetiva e eficiente do desempenho do modelo, eliminando a necessidade de intervenção humana ou do GPT durante a avaliação. Além disso, avaliamos o desempenho de 18 modelos em todas as 12 dimensões, cobrindo tanto o entendimento espacial quanto o temporal. Ao revelar as limitações dos MLLMs existentes por meio dos resultados da avaliação, nosso objetivo é que o SEED-Bench forneça insights para motivar pesquisas futuras. Lançaremos e manteremos consistentemente um leaderboard para fornecer uma plataforma para a comunidade avaliar e investigar a capacidade dos modelos.
English
Based on powerful Large Language Models (LLMs), recent generative Multimodal
Large Language Models (MLLMs) have gained prominence as a pivotal research
area, exhibiting remarkable capability for both comprehension and generation.
In this work, we address the evaluation of generative comprehension in MLLMs as
a preliminary step towards a comprehensive assessment of generative models, by
introducing a benchmark named SEED-Bench. SEED-Bench consists of 19K multiple
choice questions with accurate human annotations (x 6 larger than existing
benchmarks), which spans 12 evaluation dimensions including the comprehension
of both the image and video modality. We develop an advanced pipeline for
generating multiple-choice questions that target specific evaluation
dimensions, integrating both automatic filtering and manual verification
processes. Multiple-choice questions with groundtruth options derived from
human annotation enables an objective and efficient assessment of model
performance, eliminating the need for human or GPT intervention during
evaluation. We further evaluate the performance of 18 models across all 12
dimensions, covering both the spatial and temporal understanding. By revealing
the limitations of existing MLLMs through evaluation results, we aim for
SEED-Bench to provide insights for motivating future research. We will launch
and consistently maintain a leaderboard to provide a platform for the community
to assess and investigate model capability.