ChatPaper.aiChatPaper

MME-Survey: マルチモーダルLLMの評価に関する包括的調査

MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

November 22, 2024
著者: Chaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He
cs.AI

要旨

人工一般知能(AGI)の主要な方向性として、多様なモーダルを持つ大規模言語モデル(MLLMs)が産業界と学術界の両方から注目を集めています。事前学習済みのLLMsを基盤として構築されたこのモデルファミリーは、流れ図からコードを作成したり、画像に基づいて物語を作成するなど、印象的な多様な知覚と推論能力をさらに発展させています。開発プロセスにおいて、モデルの改善に対する直感的なフィードバックとガイダンスを提供するため、評価は重要です。従来の画像分類など単一のタスクに偏った訓練-評価-テストのパラダイムとは異なり、MLLMsの汎用性はさまざまな新しいベンチマークと評価手法の台頭を促しています。本論文では、MLLMの評価に関する包括的な調査を行い、以下の4つの主要な側面について論じます:1)評価能力によって分類された要約されたベンチマークの種類、基本的な能力、モデルの自己分析、拡張アプリケーションを含む;2)データ収集、注釈、および注意事項から構成されるベンチマークの典型的な構築プロセス;3)判断、尺度、ツールキットから構成される体系的な評価方法;4)次のベンチマークへの展望。この研究は、研究者が異なるニーズに応じてMLLMsを効果的に評価する方法を簡単に把握し、より良い評価方法をインスピレーションとして提供し、MLLM研究の進歩を促進することを目的としています。
English
As a prominent direction of Artificial General Intelligence (AGI), Multimodal Large Language Models (MLLMs) have garnered increased attention from both industry and academia. Building upon pre-trained LLMs, this family of models further develops multimodal perception and reasoning capabilities that are impressive, such as writing code given a flow chart or creating stories based on an image. In the development process, evaluation is critical since it provides intuitive feedback and guidance on improving models. Distinct from the traditional train-eval-test paradigm that only favors a single task like image classification, the versatility of MLLMs has spurred the rise of various new benchmarks and evaluation methods. In this paper, we aim to present a comprehensive survey of MLLM evaluation, discussing four key aspects: 1) the summarised benchmarks types divided by the evaluation capabilities, including foundation capabilities, model self-analysis, and extented applications; 2) the typical process of benchmark counstruction, consisting of data collection, annotation, and precautions; 3) the systematic evaluation manner composed of judge, metric, and toolkit; 4) the outlook for the next benchmark. This work aims to offer researchers an easy grasp of how to effectively evaluate MLLMs according to different needs and to inspire better evaluation methods, thereby driving the progress of MLLM research.

Summary

AI-Generated Summary

PDF222November 27, 2024