MME-опрос: Комплексный обзор оценки мультимодальных языковых моделей с многомодальными данными
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs
November 22, 2024
Авторы: Chaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He
cs.AI
Аннотация
Как важное направление искусственного общего интеллекта (AGI), мультимодальные крупные языковые модели (MLLMs) привлекли увеличенное внимание как от промышленности, так и от академии. Основываясь на предварительно обученных LLMs, эта семейство моделей дальше развивает мультимодальное восприятие и способности к рассуждениям, включая такие впечатляющие навыки, как написание кода по блок-схеме или создание историй на основе изображения. В процессе разработки оценка имеет критическое значение, поскольку она обеспечивает интуитивную обратную связь и руководство по улучшению моделей. Отличаясь от традиционной парадигмы обучения-оценки-тестирования, которая отдает предпочтение только одной задаче, такой как классификация изображений, универсальность MLLMs спровоцировала появление различных новых бенчмарков и методов оценки. В данной статье мы стремимся представить всесторонний обзор оценки MLLM, обсуждая четыре ключевых аспекта: 1) типы кратко описанных бенчмарков, разделенные по возможностям оценки, включая базовые возможности, анализ модели самой по себе и расширенные применения; 2) типичный процесс построения бенчмарков, включающий сбор данных, аннотацию и предосторожности; 3) систематический способ оценки, состоящий из экспертов, метрик и инструментов; 4) перспективы для следующего бенчмарка. Эта работа нацелена на то, чтобы предложить исследователям легкое понимание того, как эффективно оценивать MLLMs в соответствии с различными потребностями и вдохновить на лучшие методы оценки, тем самым способствуя прогрессу исследований MLLM.
English
As a prominent direction of Artificial General Intelligence (AGI), Multimodal
Large Language Models (MLLMs) have garnered increased attention from both
industry and academia. Building upon pre-trained LLMs, this family of models
further develops multimodal perception and reasoning capabilities that are
impressive, such as writing code given a flow chart or creating stories based
on an image. In the development process, evaluation is critical since it
provides intuitive feedback and guidance on improving models. Distinct from the
traditional train-eval-test paradigm that only favors a single task like image
classification, the versatility of MLLMs has spurred the rise of various new
benchmarks and evaluation methods. In this paper, we aim to present a
comprehensive survey of MLLM evaluation, discussing four key aspects: 1) the
summarised benchmarks types divided by the evaluation capabilities, including
foundation capabilities, model self-analysis, and extented applications; 2) the
typical process of benchmark counstruction, consisting of data collection,
annotation, and precautions; 3) the systematic evaluation manner composed of
judge, metric, and toolkit; 4) the outlook for the next benchmark. This work
aims to offer researchers an easy grasp of how to effectively evaluate MLLMs
according to different needs and to inspire better evaluation methods, thereby
driving the progress of MLLM research.Summary
AI-Generated Summary