ChatPaper.aiChatPaper

SEED-Bench : Évaluation des LLM multimodaux par compréhension générative

SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension

July 30, 2023
Auteurs: Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, Ying Shan
cs.AI

Résumé

Fondés sur des modèles de langage de grande envergure (LLMs) puissants, les récents modèles génératifs multimodaux de langage de grande envergure (MLLMs) ont gagné en importance en tant que domaine de recherche clé, démontrant des capacités remarquables à la fois en compréhension et en génération. Dans ce travail, nous abordons l'évaluation de la compréhension générative dans les MLLMs comme une étape préliminaire vers une évaluation complète des modèles génératifs, en introduisant un benchmark nommé SEED-Bench. SEED-Bench se compose de 19 000 questions à choix multiples avec des annotations humaines précises (6 fois plus que les benchmarks existants), couvrant 12 dimensions d'évaluation incluant la compréhension des modalités image et vidéo. Nous développons un pipeline avancé pour générer des questions à choix multiples ciblant des dimensions d'évaluation spécifiques, intégrant à la fois des processus de filtrage automatique et de vérification manuelle. Les questions à choix multiples avec des options de référence dérivées d'annotations humaines permettent une évaluation objective et efficace des performances des modèles, éliminant le besoin d'intervention humaine ou de GPT lors de l'évaluation. Nous évaluons en outre les performances de 18 modèles à travers les 12 dimensions, couvrant à la fois la compréhension spatiale et temporelle. En révélant les limites des MLLMs existants à travers les résultats d'évaluation, nous visons à ce que SEED-Bench fournisse des insights pour motiver les recherches futures. Nous lancerons et maintiendrons régulièrement un tableau de classement pour offrir une plateforme à la communauté afin d'évaluer et d'étudier les capacités des modèles.
English
Based on powerful Large Language Models (LLMs), recent generative Multimodal Large Language Models (MLLMs) have gained prominence as a pivotal research area, exhibiting remarkable capability for both comprehension and generation. In this work, we address the evaluation of generative comprehension in MLLMs as a preliminary step towards a comprehensive assessment of generative models, by introducing a benchmark named SEED-Bench. SEED-Bench consists of 19K multiple choice questions with accurate human annotations (x 6 larger than existing benchmarks), which spans 12 evaluation dimensions including the comprehension of both the image and video modality. We develop an advanced pipeline for generating multiple-choice questions that target specific evaluation dimensions, integrating both automatic filtering and manual verification processes. Multiple-choice questions with groundtruth options derived from human annotation enables an objective and efficient assessment of model performance, eliminating the need for human or GPT intervention during evaluation. We further evaluate the performance of 18 models across all 12 dimensions, covering both the spatial and temporal understanding. By revealing the limitations of existing MLLMs through evaluation results, we aim for SEED-Bench to provide insights for motivating future research. We will launch and consistently maintain a leaderboard to provide a platform for the community to assess and investigate model capability.
PDF72December 15, 2024