ChatPaper.aiChatPaper

SEED-Bench: Benchmarking multimodaler LLMs mit generativem Verständnis

SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension

July 30, 2023
Autoren: Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, Ying Shan
cs.AI

Zusammenfassung

Basierend auf leistungsstarken Large Language Models (LLMs) haben sich neuere generative Multimodale Large Language Models (MLLMs) als zentrales Forschungsgebiet etabliert und zeigen bemerkenswerte Fähigkeiten sowohl im Verständnis als auch in der Generierung. In dieser Arbeit adressieren wir die Bewertung des generativen Verständnisses in MLLMs als ersten Schritt hin zu einer umfassenden Bewertung generativer Modelle, indem wir einen Benchmark namens SEED-Bench einführen. SEED-Bench besteht aus 19.000 Multiple-Choice-Fragen mit präzisen menschlichen Annotationen (6-mal größer als bestehende Benchmarks), die 12 Bewertungsdimensionen abdecken, einschließlich des Verständnisses sowohl der Bild- als auch der Video-Modalität. Wir entwickeln eine fortschrittliche Pipeline zur Generierung von Multiple-Choice-Fragen, die spezifische Bewertungsdimensionen anvisieren und sowohl automatische Filterung als auch manuelle Verifizierungsprozesse integrieren. Multiple-Choice-Fragen mit Groundtruth-Optionen, die auf menschlichen Annotationen basieren, ermöglichen eine objektive und effiziente Bewertung der Modellleistung, wodurch der Bedarf an menschlichem oder GPT-Eingriff während der Bewertung entfällt. Wir bewerten weiterhin die Leistung von 18 Modellen über alle 12 Dimensionen hinweg, die sowohl das räumliche als auch das zeitliche Verständnis abdecken. Indem wir die Grenzen bestehender MLLMs durch die Bewertungsergebnisse aufzeigen, streben wir an, dass SEED-Bench Einblicke bietet, die zukünftige Forschung motivieren. Wir werden ein Leaderboard starten und kontinuierlich pflegen, um der Community eine Plattform zur Bewertung und Untersuchung der Modellfähigkeiten zu bieten.
English
Based on powerful Large Language Models (LLMs), recent generative Multimodal Large Language Models (MLLMs) have gained prominence as a pivotal research area, exhibiting remarkable capability for both comprehension and generation. In this work, we address the evaluation of generative comprehension in MLLMs as a preliminary step towards a comprehensive assessment of generative models, by introducing a benchmark named SEED-Bench. SEED-Bench consists of 19K multiple choice questions with accurate human annotations (x 6 larger than existing benchmarks), which spans 12 evaluation dimensions including the comprehension of both the image and video modality. We develop an advanced pipeline for generating multiple-choice questions that target specific evaluation dimensions, integrating both automatic filtering and manual verification processes. Multiple-choice questions with groundtruth options derived from human annotation enables an objective and efficient assessment of model performance, eliminating the need for human or GPT intervention during evaluation. We further evaluate the performance of 18 models across all 12 dimensions, covering both the spatial and temporal understanding. By revealing the limitations of existing MLLMs through evaluation results, we aim for SEED-Bench to provide insights for motivating future research. We will launch and consistently maintain a leaderboard to provide a platform for the community to assess and investigate model capability.
PDF72December 15, 2024