Nash-leren op basis van menselijke feedback
Nash Learning from Human Feedback
December 1, 2023
Auteurs: Rémi Munos, Michal Valko, Daniele Calandriello, Mohammad Gheshlaghi Azar, Mark Rowland, Daniel Guo, Yunhao Tang, Matthieu Geist, Thomas Mésnard, Andrea Michi, Marco Selvi, Sertan Girgin, Nikola Momchev, Olivier Bachem, Daniel J. Mankowitz, Doina Precup, Bilal Piot
cs.AI
Samenvatting
Reinforcement learning from human feedback (RLHF) is naar voren gekomen als het belangrijkste paradigma voor het afstemmen van grote taalmodelen (LLMs) op menselijke voorkeuren. Typisch omvat RLHF de eerste stap van het leren van een beloningsmodel op basis van menselijke feedback, vaak uitgedrukt als voorkeuren tussen paren van tekstgeneraties geproduceerd door een vooraf getraind LLM. Vervolgens wordt het beleid van het LLM verfijnd door het te optimaliseren om het beloningsmodel te maximaliseren via een reinforcement learning-algoritme. Een inherente beperking van huidige beloningsmodellen is echter hun onvermogen om de rijkdom van menselijke voorkeuren volledig te representeren en hun afhankelijkheid van de steekproefverdeling.
In deze studie introduceren we een alternatieve pijplijn voor het verfijnen van LLMs met behulp van gepaarde menselijke feedback. Onze aanpak omvat het initieel leren van een voorkeursmodel, dat is geconditioneerd op twee invoeren gegeven een prompt, gevolgd door het nastreven van een beleid dat consistent reacties genereert die de voorkeur genieten boven die gegenereerd door enig concurrerend beleid, waardoor het Nash-evenwicht van dit voorkeursmodel wordt gedefinieerd. We noemen deze aanpak Nash learning from human feedback (NLHF).
In de context van een tabelvormige beleidsrepresentatie presenteren we een nieuwe algoritmische oplossing, Nash-MD, gebaseerd op de principes van mirror descent. Dit algoritme produceert een reeks beleidsmaatregelen, waarbij de laatste iteratie convergeert naar het geregulariseerde Nash-evenwicht. Daarnaast onderzoeken we parametrische representaties van beleidsmaatregelen en introduceren we gradient descent-algoritmen voor deep learning-architecturen. Om de effectiviteit van onze aanpak aan te tonen, presenteren we experimentele resultaten met betrekking tot het verfijnen van een LLM voor een tekstsamenvattings-taak. Wij geloven dat NLHF een overtuigende weg biedt voor voorkeursleren en beleidsoptimalisatie met het potentieel om het veld van het afstemmen van LLMs op menselijke voorkeuren vooruit te helpen.
English
Reinforcement learning from human feedback (RLHF) has emerged as the main
paradigm for aligning large language models (LLMs) with human preferences.
Typically, RLHF involves the initial step of learning a reward model from human
feedback, often expressed as preferences between pairs of text generations
produced by a pre-trained LLM. Subsequently, the LLM's policy is fine-tuned by
optimizing it to maximize the reward model through a reinforcement learning
algorithm. However, an inherent limitation of current reward models is their
inability to fully represent the richness of human preferences and their
dependency on the sampling distribution.
In this study, we introduce an alternative pipeline for the fine-tuning of
LLMs using pairwise human feedback. Our approach entails the initial learning
of a preference model, which is conditioned on two inputs given a prompt,
followed by the pursuit of a policy that consistently generates responses
preferred over those generated by any competing policy, thus defining the Nash
equilibrium of this preference model. We term this approach Nash learning from
human feedback (NLHF).
In the context of a tabular policy representation, we present a novel
algorithmic solution, Nash-MD, founded on the principles of mirror descent.
This algorithm produces a sequence of policies, with the last iteration
converging to the regularized Nash equilibrium. Additionally, we explore
parametric representations of policies and introduce gradient descent
algorithms for deep-learning architectures. To demonstrate the effectiveness of
our approach, we present experimental results involving the fine-tuning of a
LLM for a text summarization task. We believe NLHF offers a compelling avenue
for preference learning and policy optimization with the potential of advancing
the field of aligning LLMs with human preferences.