ChatPaper.aiChatPaper

マルチモーダルLLMと人間の選好の整合:サーベイ

Aligning Multimodal LLM with Human Preference: A Survey

March 18, 2025
著者: Tao Yu, Yi-Fan Zhang, Chaoyou Fu, Junkang Wu, Jinda Lu, Kun Wang, Xingyu Lu, Yunhang Shen, Guibin Zhang, Dingjie Song, Yibo Yan, Tianlong Xu, Qingsong Wen, Zhang Zhang, Yan Huang, Liang Wang, Tieniu Tan
cs.AI

要旨

大規模言語モデル(LLMs)は、タスク固有のトレーニングを必要とせず、シンプルなプロンプトで多様な一般的なタスクを処理できます。LLMsを基盤として構築されたマルチモーダル大規模言語モデル(MLLMs)は、視覚、聴覚、テキストデータを含む複雑なタスクに取り組む際に、印象的な潜在能力を示しています。しかし、真実性、安全性、人間の嗜好との整合性、および推論能力に関する重要な課題は、十分に対処されていません。このギャップは、さまざまなアライメントアルゴリズムの出現を促し、それぞれが異なるアプリケーションシナリオと最適化目標を対象としています。最近の研究では、アライメントアルゴリズムが前述の課題を解決するための強力なアプローチであることが示されています。本論文では、MLLMsのためのアライメントアルゴリズムに関する包括的かつ体系的なレビューを提供することを目指しています。具体的には、以下の4つの主要な側面を探求します:(1)アライメントアルゴリズムがカバーするアプリケーションシナリオ、包括的な画像理解、複数画像、ビデオ、音声、および拡張されたマルチモーダルアプリケーションを含む;(2)アライメントデータセットを構築する際の核心要素、データソース、モデルの応答、および嗜好アノテーションを含む;(3)アライメントアルゴリズムを評価するためのベンチマーク;(4)アライメントアルゴリズムの開発における将来の方向性に関する議論。本作業は、研究者がこの分野の現在の進歩を整理し、より良いアライメント手法を考案するためのインスピレーションを得ることを目的としています。本論文のプロジェクトページは、https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment で利用可能です。
English
Large language models (LLMs) can handle a wide variety of general tasks with simple prompts, without the need for task-specific training. Multimodal Large Language Models (MLLMs), built upon LLMs, have demonstrated impressive potential in tackling complex tasks involving visual, auditory, and textual data. However, critical issues related to truthfulness, safety, o1-like reasoning, and alignment with human preference remain insufficiently addressed. This gap has spurred the emergence of various alignment algorithms, each targeting different application scenarios and optimization goals. Recent studies have shown that alignment algorithms are a powerful approach to resolving the aforementioned challenges. In this paper, we aim to provide a comprehensive and systematic review of alignment algorithms for MLLMs. Specifically, we explore four key aspects: (1) the application scenarios covered by alignment algorithms, including general image understanding, multi-image, video, and audio, and extended multimodal applications; (2) the core factors in constructing alignment datasets, including data sources, model responses, and preference annotations; (3) the benchmarks used to evaluate alignment algorithms; and (4) a discussion of potential future directions for the development of alignment algorithms. This work seeks to help researchers organize current advancements in the field and inspire better alignment methods. The project page of this paper is available at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.

Summary

AI-Generated Summary

PDF233March 19, 2025