ChatPaper.aiChatPaper

MME-Survey: Um Levantamento Abrangente sobre a Avaliação de Modelos de Linguagem Multimodais

MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

November 22, 2024
Autores: Chaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He
cs.AI

Resumo

Como uma direção proeminente da Inteligência Artificial Geral (IAG), Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm recebido uma atenção crescente tanto da indústria quanto da academia. Construindo sobre os LLMs pré-treinados, essa família de modelos desenvolve ainda mais as capacidades de percepção e raciocínio multimodais que são impressionantes, como escrever código dado um fluxograma ou criar histórias com base em uma imagem. No processo de desenvolvimento, a avaliação é crítica, pois fornece feedback intuitivo e orientação sobre a melhoria dos modelos. Distinto do paradigma tradicional de treino-avaliação-teste que favorece apenas uma única tarefa como classificação de imagens, a versatilidade dos MLLMs tem impulsionado o surgimento de vários novos benchmarks e métodos de avaliação. Neste artigo, temos como objetivo apresentar uma pesquisa abrangente da avaliação de MLLMs, discutindo quatro aspectos-chave: 1) os tipos de benchmarks resumidos divididos pelas capacidades de avaliação, incluindo capacidades fundamentais, autoanálise do modelo e aplicações estendidas; 2) o processo típico de construção de benchmarks, composto por coleta de dados, anotação e precauções; 3) a maneira sistemática de avaliação composta por juízes, métricas e ferramentas; 4) a perspectiva para o próximo benchmark. Este trabalho tem como objetivo oferecer aos pesquisadores uma compreensão fácil de como avaliar efetivamente os MLLMs de acordo com diferentes necessidades e inspirar melhores métodos de avaliação, impulsionando assim o progresso da pesquisa em MLLMs.
English
As a prominent direction of Artificial General Intelligence (AGI), Multimodal Large Language Models (MLLMs) have garnered increased attention from both industry and academia. Building upon pre-trained LLMs, this family of models further develops multimodal perception and reasoning capabilities that are impressive, such as writing code given a flow chart or creating stories based on an image. In the development process, evaluation is critical since it provides intuitive feedback and guidance on improving models. Distinct from the traditional train-eval-test paradigm that only favors a single task like image classification, the versatility of MLLMs has spurred the rise of various new benchmarks and evaluation methods. In this paper, we aim to present a comprehensive survey of MLLM evaluation, discussing four key aspects: 1) the summarised benchmarks types divided by the evaluation capabilities, including foundation capabilities, model self-analysis, and extented applications; 2) the typical process of benchmark counstruction, consisting of data collection, annotation, and precautions; 3) the systematic evaluation manner composed of judge, metric, and toolkit; 4) the outlook for the next benchmark. This work aims to offer researchers an easy grasp of how to effectively evaluate MLLMs according to different needs and to inspire better evaluation methods, thereby driving the progress of MLLM research.

Summary

AI-Generated Summary

PDF222November 27, 2024