ChatPaper.aiChatPaper

Nash-leren op basis van menselijke feedback

Nash Learning from Human Feedback

December 1, 2023
Auteurs: Rémi Munos, Michal Valko, Daniele Calandriello, Mohammad Gheshlaghi Azar, Mark Rowland, Daniel Guo, Yunhao Tang, Matthieu Geist, Thomas Mésnard, Andrea Michi, Marco Selvi, Sertan Girgin, Nikola Momchev, Olivier Bachem, Daniel J. Mankowitz, Doina Precup, Bilal Piot
cs.AI

Samenvatting

Reinforcement learning from human feedback (RLHF) is naar voren gekomen als het belangrijkste paradigma voor het afstemmen van grote taalmodelen (LLMs) op menselijke voorkeuren. Typisch omvat RLHF de eerste stap van het leren van een beloningsmodel op basis van menselijke feedback, vaak uitgedrukt als voorkeuren tussen paren van tekstgeneraties geproduceerd door een vooraf getraind LLM. Vervolgens wordt het beleid van het LLM verfijnd door het te optimaliseren om het beloningsmodel te maximaliseren via een reinforcement learning-algoritme. Een inherente beperking van huidige beloningsmodellen is echter hun onvermogen om de rijkdom van menselijke voorkeuren volledig te representeren en hun afhankelijkheid van de steekproefverdeling. In deze studie introduceren we een alternatieve pijplijn voor het verfijnen van LLMs met behulp van gepaarde menselijke feedback. Onze aanpak omvat het initieel leren van een voorkeursmodel, dat is geconditioneerd op twee invoeren gegeven een prompt, gevolgd door het nastreven van een beleid dat consistent reacties genereert die de voorkeur genieten boven die gegenereerd door enig concurrerend beleid, waardoor het Nash-evenwicht van dit voorkeursmodel wordt gedefinieerd. We noemen deze aanpak Nash learning from human feedback (NLHF). In de context van een tabelvormige beleidsrepresentatie presenteren we een nieuwe algoritmische oplossing, Nash-MD, gebaseerd op de principes van mirror descent. Dit algoritme produceert een reeks beleidsmaatregelen, waarbij de laatste iteratie convergeert naar het geregulariseerde Nash-evenwicht. Daarnaast onderzoeken we parametrische representaties van beleidsmaatregelen en introduceren we gradient descent-algoritmen voor deep learning-architecturen. Om de effectiviteit van onze aanpak aan te tonen, presenteren we experimentele resultaten met betrekking tot het verfijnen van een LLM voor een tekstsamenvattings-taak. Wij geloven dat NLHF een overtuigende weg biedt voor voorkeursleren en beleidsoptimalisatie met het potentieel om het veld van het afstemmen van LLMs op menselijke voorkeuren vooruit te helpen.
English
Reinforcement learning from human feedback (RLHF) has emerged as the main paradigm for aligning large language models (LLMs) with human preferences. Typically, RLHF involves the initial step of learning a reward model from human feedback, often expressed as preferences between pairs of text generations produced by a pre-trained LLM. Subsequently, the LLM's policy is fine-tuned by optimizing it to maximize the reward model through a reinforcement learning algorithm. However, an inherent limitation of current reward models is their inability to fully represent the richness of human preferences and their dependency on the sampling distribution. In this study, we introduce an alternative pipeline for the fine-tuning of LLMs using pairwise human feedback. Our approach entails the initial learning of a preference model, which is conditioned on two inputs given a prompt, followed by the pursuit of a policy that consistently generates responses preferred over those generated by any competing policy, thus defining the Nash equilibrium of this preference model. We term this approach Nash learning from human feedback (NLHF). In the context of a tabular policy representation, we present a novel algorithmic solution, Nash-MD, founded on the principles of mirror descent. This algorithm produces a sequence of policies, with the last iteration converging to the regularized Nash equilibrium. Additionally, we explore parametric representations of policies and introduce gradient descent algorithms for deep-learning architectures. To demonstrate the effectiveness of our approach, we present experimental results involving the fine-tuning of a LLM for a text summarization task. We believe NLHF offers a compelling avenue for preference learning and policy optimization with the potential of advancing the field of aligning LLMs with human preferences.
PDF182February 7, 2026