MME-Survey: Un Estudio Exhaustivo sobre la Evaluación de Modelos de Lenguaje Multimodales
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs
November 22, 2024
Autores: Chaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He
cs.AI
Resumen
Como una dirección destacada de la Inteligencia Artificial General (IAG), los Modelos de Lenguaje Multimodales a Gran Escala (MLLMs) han captado una atención creciente tanto de la industria como de la academia. Basándose en LLMs pre-entrenados, esta familia de modelos desarrolla aún más capacidades de percepción y razonamiento multimodales impresionantes, como escribir código dado un diagrama de flujo o crear historias basadas en una imagen. En el proceso de desarrollo, la evaluación es crítica ya que proporciona retroalimentación intuitiva y orientación sobre cómo mejorar los modelos. Distinto del paradigma tradicional de entrenamiento-evaluación-prueba que solo favorece una única tarea como la clasificación de imágenes, la versatilidad de los MLLMs ha impulsado la aparición de varios nuevos puntos de referencia y métodos de evaluación. En este documento, nuestro objetivo es presentar un estudio exhaustivo de la evaluación de MLLM, discutiendo cuatro aspectos clave: 1) los tipos de puntos de referencia resumidos divididos por las capacidades de evaluación, incluyendo capacidades fundamentales, autoanálisis del modelo y aplicaciones extendidas; 2) el proceso típico de construcción de puntos de referencia, que consiste en la recopilación de datos, la anotación y precauciones; 3) la forma sistemática de evaluación compuesta por juez, métrica y herramientas; 4) la perspectiva para el próximo punto de referencia. Este trabajo tiene como objetivo ofrecer a los investigadores una comprensión sencilla de cómo evaluar efectivamente los MLLMs según diferentes necesidades e inspirar mejores métodos de evaluación, impulsando así el progreso de la investigación en MLLM.
English
As a prominent direction of Artificial General Intelligence (AGI), Multimodal
Large Language Models (MLLMs) have garnered increased attention from both
industry and academia. Building upon pre-trained LLMs, this family of models
further develops multimodal perception and reasoning capabilities that are
impressive, such as writing code given a flow chart or creating stories based
on an image. In the development process, evaluation is critical since it
provides intuitive feedback and guidance on improving models. Distinct from the
traditional train-eval-test paradigm that only favors a single task like image
classification, the versatility of MLLMs has spurred the rise of various new
benchmarks and evaluation methods. In this paper, we aim to present a
comprehensive survey of MLLM evaluation, discussing four key aspects: 1) the
summarised benchmarks types divided by the evaluation capabilities, including
foundation capabilities, model self-analysis, and extented applications; 2) the
typical process of benchmark counstruction, consisting of data collection,
annotation, and precautions; 3) the systematic evaluation manner composed of
judge, metric, and toolkit; 4) the outlook for the next benchmark. This work
aims to offer researchers an easy grasp of how to effectively evaluate MLLMs
according to different needs and to inspire better evaluation methods, thereby
driving the progress of MLLM research.Summary
AI-Generated Summary