SEED-Bench: Valutazione dei Modelli Linguistici Multimodali con Comprensione Generativa
SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension
July 30, 2023
Autori: Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, Ying Shan
cs.AI
Abstract
Basati su potenti Modelli Linguistici di Grande Scala (LLM), i recenti Modelli Linguistici Multimodali Generativi (MLLM) hanno acquisito rilevanza come area di ricerca fondamentale, dimostrando una notevole capacità sia di comprensione che di generazione. In questo lavoro, affrontiamo la valutazione della comprensione generativa negli MLLM come passo preliminare verso una valutazione completa dei modelli generativi, introducendo un benchmark denominato SEED-Bench. SEED-Bench è composto da 19K domande a scelta multipla con annotazioni umane accurate (6 volte più grande rispetto ai benchmark esistenti), che coprono 12 dimensioni di valutazione, inclusa la comprensione delle modalità immagine e video. Sviluppiamo una pipeline avanzata per la generazione di domande a scelta multipla che mirano a specifiche dimensioni di valutazione, integrando sia processi di filtraggio automatico che di verifica manuale. Le domande a scelta multipla con opzioni di verità derivanti da annotazioni umane consentono una valutazione oggettiva ed efficiente delle prestazioni del modello, eliminando la necessità di intervento umano o di GPT durante la valutazione. Valutiamo ulteriormente le prestazioni di 18 modelli in tutte le 12 dimensioni, coprendo sia la comprensione spaziale che temporale. Rivelando i limiti degli MLLM esistenti attraverso i risultati della valutazione, miriamo a fornire con SEED-Bench spunti per motivare la ricerca futura. Lanceremo e manterremo costantemente una classifica per fornire una piattaforma alla comunità per valutare e investigare le capacità dei modelli.
English
Based on powerful Large Language Models (LLMs), recent generative Multimodal
Large Language Models (MLLMs) have gained prominence as a pivotal research
area, exhibiting remarkable capability for both comprehension and generation.
In this work, we address the evaluation of generative comprehension in MLLMs as
a preliminary step towards a comprehensive assessment of generative models, by
introducing a benchmark named SEED-Bench. SEED-Bench consists of 19K multiple
choice questions with accurate human annotations (x 6 larger than existing
benchmarks), which spans 12 evaluation dimensions including the comprehension
of both the image and video modality. We develop an advanced pipeline for
generating multiple-choice questions that target specific evaluation
dimensions, integrating both automatic filtering and manual verification
processes. Multiple-choice questions with groundtruth options derived from
human annotation enables an objective and efficient assessment of model
performance, eliminating the need for human or GPT intervention during
evaluation. We further evaluate the performance of 18 models across all 12
dimensions, covering both the spatial and temporal understanding. By revealing
the limitations of existing MLLMs through evaluation results, we aim for
SEED-Bench to provide insights for motivating future research. We will launch
and consistently maintain a leaderboard to provide a platform for the community
to assess and investigate model capability.