Ajustement des préférences avec des retours humains sur les tâches de langage, de parole et de vision : une enquête
Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey
September 17, 2024
Auteurs: Genta Indra Winata, Hanyang Zhao, Anirban Das, Wenpin Tang, David D. Yao, Shi-Xiong Zhang, Sambit Sahu
cs.AI
Résumé
L'ajustement des préférences est un processus crucial pour aligner les modèles génératifs profonds avec les préférences humaines. Cette enquête offre un aperçu approfondi des récentes avancées dans l'ajustement des préférences et l'intégration des retours humains. Le document est organisé en trois sections principales : 1) introduction et préliminaires : une introduction aux cadres d'apprentissage par renforcement, aux tâches d'ajustement des préférences, aux modèles et ensembles de données dans diverses modalités : langage, parole et vision, ainsi que différentes approches politiques, 2) examen approfondi de chaque approche d'ajustement des préférences : une analyse détaillée des méthodes utilisées dans l'ajustement des préférences, et 3) applications, discussions et orientations futures : une exploration des applications de l'ajustement des préférences dans les tâches aval, y compris les méthodes d'évaluation pour différentes modalités, et une perspective sur les orientations futures de la recherche. Notre objectif est de présenter les dernières méthodologies en matière d'ajustement des préférences et d'alignement des modèles, améliorant la compréhension de ce domaine pour les chercheurs et les praticiens. Nous espérons encourager un engagement et une innovation supplémentaires dans ce domaine.
English
Preference tuning is a crucial process for aligning deep generative models
with human preferences. This survey offers a thorough overview of recent
advancements in preference tuning and the integration of human feedback. The
paper is organized into three main sections: 1) introduction and preliminaries:
an introduction to reinforcement learning frameworks, preference tuning tasks,
models, and datasets across various modalities: language, speech, and vision,
as well as different policy approaches, 2) in-depth examination of each
preference tuning approach: a detailed analysis of the methods used in
preference tuning, and 3) applications, discussion, and future directions: an
exploration of the applications of preference tuning in downstream tasks,
including evaluation methods for different modalities, and an outlook on future
research directions. Our objective is to present the latest methodologies in
preference tuning and model alignment, enhancing the understanding of this
field for researchers and practitioners. We hope to encourage further
engagement and innovation in this area.Summary
AI-Generated Summary