ChatPaper.aiChatPaper

Taratura delle preferenze con feedback umano su compiti di linguaggio, discorso e visione: un'indagine

Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey

September 17, 2024
Autori: Genta Indra Winata, Hanyang Zhao, Anirban Das, Wenpin Tang, David D. Yao, Shi-Xiong Zhang, Sambit Sahu
cs.AI

Abstract

Il tuning delle preferenze è un processo cruciale per allineare i modelli generativi profondi con le preferenze umane. Questa panoramica offre una visione approfondita degli ultimi progressi nel tuning delle preferenze e nell'integrazione del feedback umano. Il documento è organizzato in tre sezioni principali: 1) introduzione e preliminari: un'introduzione ai framework di apprendimento per rinforzo, compiti di tuning delle preferenze, modelli e set di dati attraverso varie modalità: linguaggio, linguaggio parlato e visione, nonché diversi approcci di politica, 2) esame approfondito di ciascun approccio al tuning delle preferenze: un'analisi dettagliata dei metodi utilizzati nel tuning delle preferenze, e 3) applicazioni, discussioni e future direzioni: un'esplorazione delle applicazioni del tuning delle preferenze in compiti successivi, inclusi metodi di valutazione per diverse modalità e una prospettiva sulle future direzioni della ricerca. Il nostro obiettivo è presentare le ultime metodologie nel tuning delle preferenze e nell'allineamento dei modelli, migliorando la comprensione di questo campo per ricercatori e professionisti. Speriamo di incoraggiare ulteriori impegni e innovazioni in questo settore.
English
Preference tuning is a crucial process for aligning deep generative models with human preferences. This survey offers a thorough overview of recent advancements in preference tuning and the integration of human feedback. The paper is organized into three main sections: 1) introduction and preliminaries: an introduction to reinforcement learning frameworks, preference tuning tasks, models, and datasets across various modalities: language, speech, and vision, as well as different policy approaches, 2) in-depth examination of each preference tuning approach: a detailed analysis of the methods used in preference tuning, and 3) applications, discussion, and future directions: an exploration of the applications of preference tuning in downstream tasks, including evaluation methods for different modalities, and an outlook on future research directions. Our objective is to present the latest methodologies in preference tuning and model alignment, enhancing the understanding of this field for researchers and practitioners. We hope to encourage further engagement and innovation in this area.

Summary

AI-Generated Summary

PDF212November 16, 2024