ChatPaper.aiChatPaper

MME-Umfrage: Eine umfassende Umfrage zur Bewertung von multimodalen LLMs

MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

November 22, 2024
Autoren: Chaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He
cs.AI

Zusammenfassung

Als eine herausragende Richtung der Künstlichen Allgemeinen Intelligenz (AGI) haben Multimodale Große Sprachmodelle (MLLMs) sowohl in der Industrie als auch in der akademischen Welt zunehmend an Aufmerksamkeit gewonnen. Aufbauend auf vorab trainierten LLMs entwickelt diese Modellfamilie weiterführende multimodale Wahrnehmungs- und Schlussfolgerungsfähigkeiten, die beeindruckend sind, wie beispielsweise das Schreiben von Code basierend auf einem Flussdiagramm oder das Erstellen von Geschichten anhand eines Bildes. Im Entwicklungsprozess ist die Evaluation entscheidend, da sie intuitive Rückmeldungen und Anleitungen zur Verbesserung der Modelle liefert. Im Gegensatz zum traditionellen Trainings-Evaluierungs-Test-Paradigma, das nur eine einzelne Aufgabe wie die Bildklassifizierung bevorzugt, hat die Vielseitigkeit von MLLMs die Entstehung verschiedener neuer Benchmarks und Evaluierungsmethoden vorangetrieben. In diesem Papier zielen wir darauf ab, eine umfassende Übersicht über die Evaluation von MLLMs zu präsentieren, wobei vier Schlüsselaspekte diskutiert werden: 1) die zusammengefassten Benchmark-Typen, unterteilt nach den Evaluierungsfähigkeiten, einschließlich grundlegender Fähigkeiten, Modell-Selbstanalyse und erweiterten Anwendungen; 2) der typische Prozess der Benchmark-Konstruktion, bestehend aus Datensammlung, Annotation und Vorsichtsmaßnahmen; 3) die systematische Evaluierungsmethode, bestehend aus Bewertung, Metrik und Toolkit; 4) der Ausblick auf den nächsten Benchmark. Diese Arbeit zielt darauf ab, Forschern ein leicht verständliches Konzept zu bieten, wie MLLMs effektiv je nach Bedarf evaluiert werden können, und bessere Evaluierungsmethoden zu inspirieren, um so den Fortschritt der MLLM-Forschung voranzutreiben.
English
As a prominent direction of Artificial General Intelligence (AGI), Multimodal Large Language Models (MLLMs) have garnered increased attention from both industry and academia. Building upon pre-trained LLMs, this family of models further develops multimodal perception and reasoning capabilities that are impressive, such as writing code given a flow chart or creating stories based on an image. In the development process, evaluation is critical since it provides intuitive feedback and guidance on improving models. Distinct from the traditional train-eval-test paradigm that only favors a single task like image classification, the versatility of MLLMs has spurred the rise of various new benchmarks and evaluation methods. In this paper, we aim to present a comprehensive survey of MLLM evaluation, discussing four key aspects: 1) the summarised benchmarks types divided by the evaluation capabilities, including foundation capabilities, model self-analysis, and extented applications; 2) the typical process of benchmark counstruction, consisting of data collection, annotation, and precautions; 3) the systematic evaluation manner composed of judge, metric, and toolkit; 4) the outlook for the next benchmark. This work aims to offer researchers an easy grasp of how to effectively evaluate MLLMs according to different needs and to inspire better evaluation methods, thereby driving the progress of MLLM research.

Summary

AI-Generated Summary

PDF222November 27, 2024