言語、音声、およびビジョンタスクにおける人間のフィードバックに基づく選好チューニング:調査
Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey
September 17, 2024
著者: Genta Indra Winata, Hanyang Zhao, Anirban Das, Wenpin Tang, David D. Yao, Shi-Xiong Zhang, Sambit Sahu
cs.AI
要旨
選好チューニングは、深層生成モデルを人間の選好に合わせるための重要なプロセスです。この調査は、選好チューニングと人間のフィードバックの統合における最近の進歩について包括的な概要を提供します。論文は、次の3つの主要セクションに分かれています:1)導入と準備:強化学習フレームワーク、選好チューニングタスク、モデル、およびさまざまなモダリティ(言語、音声、ビジョン)におけるデータセットについての導入、さらに異なるポリシーアプローチ、2)各選好チューニングアプローチの詳細な検討:選好チューニングで使用される手法の詳細な分析、および3)応用、議論、および将来の方向性:選好チューニングの応用に関する探究、下流タスクでの評価方法、および将来の研究方向に対する展望。私たちの目標は、研究者や実務家のためにこの分野の理解を高めるために、選好チューニングとモデルの整合性に関する最新の方法論を提示することです。この分野でのさらなる関与とイノベーションを促進することを願っています。
English
Preference tuning is a crucial process for aligning deep generative models
with human preferences. This survey offers a thorough overview of recent
advancements in preference tuning and the integration of human feedback. The
paper is organized into three main sections: 1) introduction and preliminaries:
an introduction to reinforcement learning frameworks, preference tuning tasks,
models, and datasets across various modalities: language, speech, and vision,
as well as different policy approaches, 2) in-depth examination of each
preference tuning approach: a detailed analysis of the methods used in
preference tuning, and 3) applications, discussion, and future directions: an
exploration of the applications of preference tuning in downstream tasks,
including evaluation methods for different modalities, and an outlook on future
research directions. Our objective is to present the latest methodologies in
preference tuning and model alignment, enhancing the understanding of this
field for researchers and practitioners. We hope to encourage further
engagement and innovation in this area.Summary
AI-Generated Summary