SEED-Bench: Valutazione dei Modelli Linguistici Multimodali con Comprensione Generativa

Abstract

Basati su potenti Modelli Linguistici di Grande Scala (LLM), i recenti Modelli Linguistici Multimodali Generativi (MLLM) hanno acquisito rilevanza come area di ricerca fondamentale, dimostrando una notevole capacità sia di comprensione che di generazione. In questo lavoro, affrontiamo la valutazione della comprensione generativa negli MLLM come passo preliminare verso una valutazione completa dei modelli generativi, introducendo un benchmark denominato SEED-Bench. SEED-Bench è composto da 19K domande a scelta multipla con annotazioni umane accurate (6 volte più grande rispetto ai benchmark esistenti), che coprono 12 dimensioni di valutazione, inclusa la comprensione delle modalità immagine e video. Sviluppiamo una pipeline avanzata per la generazione di domande a scelta multipla che mirano a specifiche dimensioni di valutazione, integrando sia processi di filtraggio automatico che di verifica manuale. Le domande a scelta multipla con opzioni di verità derivanti da annotazioni umane consentono una valutazione oggettiva ed efficiente delle prestazioni del modello, eliminando la necessità di intervento umano o di GPT durante la valutazione. Valutiamo ulteriormente le prestazioni di 18 modelli in tutte le 12 dimensioni, coprendo sia la comprensione spaziale che temporale. Rivelando i limiti degli MLLM esistenti attraverso i risultati della valutazione, miriamo a fornire con SEED-Bench spunti per motivare la ricerca futura. Lanceremo e manterremo costantemente una classifica per fornire una piattaforma alla comunità per valutare e investigare le capacità dei modelli.

English

Based on powerful Large Language Models (LLMs), recent generative Multimodal Large Language Models (MLLMs) have gained prominence as a pivotal research area, exhibiting remarkable capability for both comprehension and generation. In this work, we address the evaluation of generative comprehension in MLLMs as a preliminary step towards a comprehensive assessment of generative models, by introducing a benchmark named SEED-Bench. SEED-Bench consists of 19K multiple choice questions with accurate human annotations (x 6 larger than existing benchmarks), which spans 12 evaluation dimensions including the comprehension of both the image and video modality. We develop an advanced pipeline for generating multiple-choice questions that target specific evaluation dimensions, integrating both automatic filtering and manual verification processes. Multiple-choice questions with groundtruth options derived from human annotation enables an objective and efficient assessment of model performance, eliminating the need for human or GPT intervention during evaluation. We further evaluate the performance of 18 models across all 12 dimensions, covering both the spatial and temporal understanding. By revealing the limitations of existing MLLMs through evaluation results, we aim for SEED-Bench to provide insights for motivating future research. We will launch and consistently maintain a leaderboard to provide a platform for the community to assess and investigate model capability.

SEED-Bench: Valutazione dei Modelli Linguistici Multimodali con Comprensione Generativa

SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension

Abstract

Support