Voorkeursafstemming met menselijke feedback over taal, spraak en visie taken: Een enquête
Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey
September 17, 2024
Auteurs: Genta Indra Winata, Hanyang Zhao, Anirban Das, Wenpin Tang, David D. Yao, Shi-Xiong Zhang, Sambit Sahu
cs.AI
Samenvatting
Voorkeurstuning is een cruciaal proces voor het afstemmen van diepe generatieve modellen op menselijke voorkeuren. Deze survey biedt een grondig overzicht van recente ontwikkelingen in voorkeurstuning en de integratie van menselijke feedback. Het artikel is opgedeeld in drie hoofdsecties: 1) inleiding en basisbegrippen: een introductie tot reinforcement learning frameworks, voorkeurstuning taken, modellen en datasets over verschillende modaliteiten: taal, spraak en visie, evenals verschillende beleidsbenaderingen, 2) diepgaande analyse van elke voorkeurstuning benadering: een gedetailleerde analyse van de methoden die worden gebruikt in voorkeurstuning, en 3) toepassingen, discussie en toekomstige richtingen: een verkenning van de toepassingen van voorkeurstuning in downstream taken, inclusief evaluatiemethoden voor verschillende modaliteiten, en een vooruitblik op toekomstig onderzoek. Ons doel is om de nieuwste methodologieën in voorkeurstuning en modelafstemming te presenteren, waardoor het begrip van dit vakgebied wordt verbeterd voor onderzoekers en praktijkmensen. We hopen verdere betrokkenheid en innovatie op dit gebied aan te moedigen.
English
Preference tuning is a crucial process for aligning deep generative models
with human preferences. This survey offers a thorough overview of recent
advancements in preference tuning and the integration of human feedback. The
paper is organized into three main sections: 1) introduction and preliminaries:
an introduction to reinforcement learning frameworks, preference tuning tasks,
models, and datasets across various modalities: language, speech, and vision,
as well as different policy approaches, 2) in-depth examination of each
preference tuning approach: a detailed analysis of the methods used in
preference tuning, and 3) applications, discussion, and future directions: an
exploration of the applications of preference tuning in downstream tasks,
including evaluation methods for different modalities, and an outlook on future
research directions. Our objective is to present the latest methodologies in
preference tuning and model alignment, enhancing the understanding of this
field for researchers and practitioners. We hope to encourage further
engagement and innovation in this area.Summary
AI-Generated Summary