ChatPaper.aiChatPaper

MME-Onderzoek: Een Uitgebreid Onderzoek naar de Evaluatie van Multimodale Taalmodelen met LLM's

MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

November 22, 2024
Auteurs: Chaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He
cs.AI

Samenvatting

Als een prominente richting van Kunstmatige Algemene Intelligentie (AGI) hebben Multimodale Grote Taalmodellen (MLLM's) toenemende aandacht gekregen van zowel de industrie als de academische wereld. Voortbouwend op vooraf getrainde LLM's, ontwikkelt deze modellenfamilie verder multimodale perceptie- en redeneervaardigheden die indrukwekkend zijn, zoals het schrijven van code op basis van een stroomdiagram of het creëren van verhalen op basis van een afbeelding. In het ontwikkelingsproces is evaluatie cruciaal omdat het intuïtieve feedback en begeleiding biedt bij het verbeteren van modellen. In tegenstelling tot het traditionele train-eval-test paradigma dat alleen gunstig is voor een enkele taak zoals beeldclassificatie, heeft de veelzijdigheid van MLLM's geleid tot de opkomst van verschillende nieuwe benchmarks en evaluatiemethoden. In dit artikel streven we ernaar een uitgebreid overzicht van MLLM-evaluatie te presenteren, waarbij vier belangrijke aspecten worden besproken: 1) de samengevatte benchmarktypes verdeeld naar de evaluatiemogelijkheden, inclusief basisvaardigheden, modelzelfanalyse en uitgebreide toepassingen; 2) het typische proces van benchmarkconstructie, bestaande uit gegevensverzameling, annotatie en voorzorgsmaatregelen; 3) de systematische evaluatiemethode bestaande uit beoordelaar, metriek en toolkit; 4) de vooruitzichten voor de volgende benchmark. Dit werk heeft tot doel onderzoekers een eenvoudig begrip te bieden van hoe MLLM's effectief te evalueren volgens verschillende behoeften en betere evaluatiemethoden te inspireren, waardoor de vooruitgang van MLLM-onderzoek wordt bevorderd.
English
As a prominent direction of Artificial General Intelligence (AGI), Multimodal Large Language Models (MLLMs) have garnered increased attention from both industry and academia. Building upon pre-trained LLMs, this family of models further develops multimodal perception and reasoning capabilities that are impressive, such as writing code given a flow chart or creating stories based on an image. In the development process, evaluation is critical since it provides intuitive feedback and guidance on improving models. Distinct from the traditional train-eval-test paradigm that only favors a single task like image classification, the versatility of MLLMs has spurred the rise of various new benchmarks and evaluation methods. In this paper, we aim to present a comprehensive survey of MLLM evaluation, discussing four key aspects: 1) the summarised benchmarks types divided by the evaluation capabilities, including foundation capabilities, model self-analysis, and extented applications; 2) the typical process of benchmark counstruction, consisting of data collection, annotation, and precautions; 3) the systematic evaluation manner composed of judge, metric, and toolkit; 4) the outlook for the next benchmark. This work aims to offer researchers an easy grasp of how to effectively evaluate MLLMs according to different needs and to inspire better evaluation methods, thereby driving the progress of MLLM research.

Summary

AI-Generated Summary

PDF222November 27, 2024