Ajuste de Preferência com Feedback Humano em Tarefas de Linguagem, Fala e Visão: Uma Pesquisa
Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey
September 17, 2024
Autores: Genta Indra Winata, Hanyang Zhao, Anirban Das, Wenpin Tang, David D. Yao, Shi-Xiong Zhang, Sambit Sahu
cs.AI
Resumo
A afinação de preferências é um processo crucial para alinhar modelos generativos profundos com as preferências humanas. Esta pesquisa oferece uma visão abrangente dos avanços recentes na afinação de preferências e na integração do feedback humano. O artigo está organizado em três seções principais: 1) introdução e preliminares: uma introdução aos frameworks de aprendizado por reforço, tarefas de afinação de preferências, modelos e conjuntos de dados em várias modalidades: linguagem, fala e visão, bem como diferentes abordagens de política, 2) exame detalhado de cada abordagem de afinação de preferências: uma análise detalhada dos métodos utilizados na afinação de preferências, e 3) aplicações, discussão e direções futuras: uma exploração das aplicações da afinação de preferências em tarefas subsequentes, incluindo métodos de avaliação para diferentes modalidades, e uma visão sobre as futuras direções de pesquisa. Nosso objetivo é apresentar as últimas metodologias em afinação de preferências e alinhamento de modelos, aprimorando a compreensão deste campo para pesquisadores e profissionais. Esperamos incentivar maior engajamento e inovação nesta área.
English
Preference tuning is a crucial process for aligning deep generative models
with human preferences. This survey offers a thorough overview of recent
advancements in preference tuning and the integration of human feedback. The
paper is organized into three main sections: 1) introduction and preliminaries:
an introduction to reinforcement learning frameworks, preference tuning tasks,
models, and datasets across various modalities: language, speech, and vision,
as well as different policy approaches, 2) in-depth examination of each
preference tuning approach: a detailed analysis of the methods used in
preference tuning, and 3) applications, discussion, and future directions: an
exploration of the applications of preference tuning in downstream tasks,
including evaluation methods for different modalities, and an outlook on future
research directions. Our objective is to present the latest methodologies in
preference tuning and model alignment, enhancing the understanding of this
field for researchers and practitioners. We hope to encourage further
engagement and innovation in this area.Summary
AI-Generated Summary