SEED-Bench: Het benchmarken van multimodale LLM's met generatief begrip
SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension
July 30, 2023
Auteurs: Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, Ying Shan
cs.AI
Samenvatting
Gebaseerd op krachtige Large Language Models (LLM's), hebben recente generatieve Multimodale Large Language Models (MLLM's) aanzienlijke aandacht gekregen als een cruciaal onderzoeksgebied, waarbij ze opmerkelijke vaardigheden tonen voor zowel begrip als generatie. In dit werk richten we ons op de evaluatie van generatief begrip in MLLM's als een eerste stap naar een uitgebreide beoordeling van generatieve modellen, door een benchmark genaamd SEED-Bench te introduceren. SEED-Bench bestaat uit 19.000 meerkeuzevragen met nauwkeurige menselijke annotaties (6 keer groter dan bestaande benchmarks), die 12 evaluatiedimensies omvatten, waaronder het begrip van zowel beeld- als videomodaliteiten. We ontwikkelen een geavanceerde pijplijn voor het genereren van meerkeuzevragen die specifieke evaluatiedimensies targeten, waarbij zowel automatische filtering als handmatige verificatieprocessen worden geïntegreerd. Meerkeuzevragen met grondwaarheidopties afgeleid van menselijke annotaties maken een objectieve en efficiënte beoordeling van modelprestaties mogelijk, waardoor de noodzaak voor menselijke of GPT-interventie tijdens de evaluatie wordt geëlimineerd. We evalueren verder de prestaties van 18 modellen over alle 12 dimensies, waarbij zowel ruimtelijk als temporeel begrip wordt bestreken. Door de beperkingen van bestaande MLLM's te onthullen via evaluatieresultaten, streven we ernaar dat SEED-Bench inzichten biedt om toekomstig onderzoek te stimuleren. We zullen een leaderboard lanceren en consistent onderhouden om een platform te bieden voor de gemeenschap om modelcapaciteiten te beoordelen en te onderzoeken.
English
Based on powerful Large Language Models (LLMs), recent generative Multimodal
Large Language Models (MLLMs) have gained prominence as a pivotal research
area, exhibiting remarkable capability for both comprehension and generation.
In this work, we address the evaluation of generative comprehension in MLLMs as
a preliminary step towards a comprehensive assessment of generative models, by
introducing a benchmark named SEED-Bench. SEED-Bench consists of 19K multiple
choice questions with accurate human annotations (x 6 larger than existing
benchmarks), which spans 12 evaluation dimensions including the comprehension
of both the image and video modality. We develop an advanced pipeline for
generating multiple-choice questions that target specific evaluation
dimensions, integrating both automatic filtering and manual verification
processes. Multiple-choice questions with groundtruth options derived from
human annotation enables an objective and efficient assessment of model
performance, eliminating the need for human or GPT intervention during
evaluation. We further evaluate the performance of 18 models across all 12
dimensions, covering both the spatial and temporal understanding. By revealing
the limitations of existing MLLMs through evaluation results, we aim for
SEED-Bench to provide insights for motivating future research. We will launch
and consistently maintain a leaderboard to provide a platform for the community
to assess and investigate model capability.