マルチモーダルLLMと人間の選好の整合:サーベイ
Aligning Multimodal LLM with Human Preference: A Survey
March 18, 2025
著者: Tao Yu, Yi-Fan Zhang, Chaoyou Fu, Junkang Wu, Jinda Lu, Kun Wang, Xingyu Lu, Yunhang Shen, Guibin Zhang, Dingjie Song, Yibo Yan, Tianlong Xu, Qingsong Wen, Zhang Zhang, Yan Huang, Liang Wang, Tieniu Tan
cs.AI
要旨
大規模言語モデル(LLMs)は、タスク固有のトレーニングを必要とせず、シンプルなプロンプトで多様な一般的なタスクを処理できます。LLMsを基盤として構築されたマルチモーダル大規模言語モデル(MLLMs)は、視覚、聴覚、テキストデータを含む複雑なタスクに取り組む際に、印象的な潜在能力を示しています。しかし、真実性、安全性、人間の嗜好との整合性、および推論能力に関する重要な課題は、十分に対処されていません。このギャップは、さまざまなアライメントアルゴリズムの出現を促し、それぞれが異なるアプリケーションシナリオと最適化目標を対象としています。最近の研究では、アライメントアルゴリズムが前述の課題を解決するための強力なアプローチであることが示されています。本論文では、MLLMsのためのアライメントアルゴリズムに関する包括的かつ体系的なレビューを提供することを目指しています。具体的には、以下の4つの主要な側面を探求します:(1)アライメントアルゴリズムがカバーするアプリケーションシナリオ、包括的な画像理解、複数画像、ビデオ、音声、および拡張されたマルチモーダルアプリケーションを含む;(2)アライメントデータセットを構築する際の核心要素、データソース、モデルの応答、および嗜好アノテーションを含む;(3)アライメントアルゴリズムを評価するためのベンチマーク;(4)アライメントアルゴリズムの開発における将来の方向性に関する議論。本作業は、研究者がこの分野の現在の進歩を整理し、より良いアライメント手法を考案するためのインスピレーションを得ることを目的としています。本論文のプロジェクトページは、https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment で利用可能です。
English
Large language models (LLMs) can handle a wide variety of general tasks with
simple prompts, without the need for task-specific training. Multimodal Large
Language Models (MLLMs), built upon LLMs, have demonstrated impressive
potential in tackling complex tasks involving visual, auditory, and textual
data. However, critical issues related to truthfulness, safety, o1-like
reasoning, and alignment with human preference remain insufficiently addressed.
This gap has spurred the emergence of various alignment algorithms, each
targeting different application scenarios and optimization goals. Recent
studies have shown that alignment algorithms are a powerful approach to
resolving the aforementioned challenges. In this paper, we aim to provide a
comprehensive and systematic review of alignment algorithms for MLLMs.
Specifically, we explore four key aspects: (1) the application scenarios
covered by alignment algorithms, including general image understanding,
multi-image, video, and audio, and extended multimodal applications; (2) the
core factors in constructing alignment datasets, including data sources, model
responses, and preference annotations; (3) the benchmarks used to evaluate
alignment algorithms; and (4) a discussion of potential future directions for
the development of alignment algorithms. This work seeks to help researchers
organize current advancements in the field and inspire better alignment
methods. The project page of this paper is available at
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.Summary
AI-Generated Summary