MME-Survey : Une enquête exhaustive sur l'évaluation des LLM multimodaux
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs
November 22, 2024
Auteurs: Chaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He
cs.AI
Résumé
En tant que direction majeure de l'Intelligence Artificielle Générale (IAG), les Grands Modèles de Langage Multimodaux (GMLM) ont suscité un intérêt croissant tant de l'industrie que du milieu universitaire. En s'appuyant sur des GML pré-entraînés, cette famille de modèles développe davantage les capacités de perception et de raisonnement multimodales qui sont impressionnantes, telles que la rédaction de code à partir d'un organigramme ou la création d'histoires basées sur une image. Dans le processus de développement, l'évaluation est cruciale car elle fournit des retours intuitifs et des orientations pour améliorer les modèles. Différente du paradigme traditionnel d'entraînement-évaluation-test qui favorise uniquement une tâche unique comme la classification d'images, la polyvalence des GMLM a stimulé l'émergence de divers nouveaux référentiels et méthodes d'évaluation. Dans cet article, nous visons à présenter une enquête complète sur l'évaluation des GMLM, en discutant de quatre aspects clés : 1) les types de référentiels résumés divisés par les capacités d'évaluation, comprenant les capacités fondamentales, l'auto-analyse du modèle et les applications étendues ; 2) le processus typique de construction de référentiels, comprenant la collecte de données, l'annotation et les précautions ; 3) la manière systématique d'évaluation composée de juges, de métriques et d'outils ; 4) les perspectives pour le prochain référentiel. Ce travail vise à offrir aux chercheurs une compréhension facile de la manière d'évaluer efficacement les GMLM selon les besoins spécifiques et à inspirer de meilleures méthodes d'évaluation, contribuant ainsi à faire avancer la recherche sur les GMLM.
English
As a prominent direction of Artificial General Intelligence (AGI), Multimodal
Large Language Models (MLLMs) have garnered increased attention from both
industry and academia. Building upon pre-trained LLMs, this family of models
further develops multimodal perception and reasoning capabilities that are
impressive, such as writing code given a flow chart or creating stories based
on an image. In the development process, evaluation is critical since it
provides intuitive feedback and guidance on improving models. Distinct from the
traditional train-eval-test paradigm that only favors a single task like image
classification, the versatility of MLLMs has spurred the rise of various new
benchmarks and evaluation methods. In this paper, we aim to present a
comprehensive survey of MLLM evaluation, discussing four key aspects: 1) the
summarised benchmarks types divided by the evaluation capabilities, including
foundation capabilities, model self-analysis, and extented applications; 2) the
typical process of benchmark counstruction, consisting of data collection,
annotation, and precautions; 3) the systematic evaluation manner composed of
judge, metric, and toolkit; 4) the outlook for the next benchmark. This work
aims to offer researchers an easy grasp of how to effectively evaluate MLLMs
according to different needs and to inspire better evaluation methods, thereby
driving the progress of MLLM research.Summary
AI-Generated Summary