ChatPaper.aiChatPaper

Nash-Lernen aus menschlichem Feedback

Nash Learning from Human Feedback

December 1, 2023
Autoren: Rémi Munos, Michal Valko, Daniele Calandriello, Mohammad Gheshlaghi Azar, Mark Rowland, Daniel Guo, Yunhao Tang, Matthieu Geist, Thomas Mésnard, Andrea Michi, Marco Selvi, Sertan Girgin, Nikola Momchev, Olivier Bachem, Daniel J. Mankowitz, Doina Precup, Bilal Piot
cs.AI

Zusammenfassung

Reinforcement Learning from Human Feedback (RLHF) hat sich als das vorherrschende Paradigma für die Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen etabliert. Typischerweise umfasst RLHF den ersten Schritt des Lernens eines Belohnungsmodells aus menschlichem Feedback, das oft in Form von Präferenzen zwischen Paaren von Textgenerierungen eines vortrainierten LLMs ausgedrückt wird. Anschließend wird die Policy des LLMs durch Optimierung feinabgestimmt, um das Belohnungsmodell durch einen Reinforcement-Learning-Algorithmus zu maximieren. Eine inhärente Einschränkung aktueller Belohnungsmodelle ist jedoch ihre Unfähigkeit, die Vielfalt menschlicher Präferenzen vollständig abzubilden, sowie ihre Abhängigkeit von der Stichprobenverteilung. In dieser Studie stellen wir eine alternative Pipeline für die Feinabstimmung von LLMs unter Verwendung von paarweisem menschlichem Feedback vor. Unser Ansatz beinhaltet das initiale Lernen eines Präferenzmodells, das auf zwei Eingaben basierend auf einem Prompt konditioniert ist, gefolgt von der Suche nach einer Policy, die konsequent Antworten generiert, die gegenüber denen einer konkurrierenden Policy bevorzugt werden, wodurch das Nash-Gleichgewicht dieses Präferenzmodells definiert wird. Wir bezeichnen diesen Ansatz als Nash Learning from Human Feedback (NLHF). Im Kontext einer tabellarischen Policy-Darstellung präsentieren wir eine neuartige algorithmische Lösung, Nash-MD, die auf den Prinzipien des Mirror Descent basiert. Dieser Algorithmus erzeugt eine Folge von Policies, wobei die letzte Iteration zum regularisierten Nash-Gleichgewicht konvergiert. Zusätzlich untersuchen wir parametrische Darstellungen von Policies und führen Gradientenabstiegsalgorithmen für Deep-Learning-Architekturen ein. Um die Wirksamkeit unseres Ansatzes zu demonstrieren, präsentieren wir experimentelle Ergebnisse zur Feinabstimmung eines LLMs für eine Textzusammenfassungsaufgabe. Wir glauben, dass NLHF einen überzeugenden Weg für das Lernen von Präferenzen und die Policy-Optimierung bietet, mit dem Potenzial, das Feld der Ausrichtung von LLMs an menschlichen Präferenzen voranzubringen.
English
Reinforcement learning from human feedback (RLHF) has emerged as the main paradigm for aligning large language models (LLMs) with human preferences. Typically, RLHF involves the initial step of learning a reward model from human feedback, often expressed as preferences between pairs of text generations produced by a pre-trained LLM. Subsequently, the LLM's policy is fine-tuned by optimizing it to maximize the reward model through a reinforcement learning algorithm. However, an inherent limitation of current reward models is their inability to fully represent the richness of human preferences and their dependency on the sampling distribution. In this study, we introduce an alternative pipeline for the fine-tuning of LLMs using pairwise human feedback. Our approach entails the initial learning of a preference model, which is conditioned on two inputs given a prompt, followed by the pursuit of a policy that consistently generates responses preferred over those generated by any competing policy, thus defining the Nash equilibrium of this preference model. We term this approach Nash learning from human feedback (NLHF). In the context of a tabular policy representation, we present a novel algorithmic solution, Nash-MD, founded on the principles of mirror descent. This algorithm produces a sequence of policies, with the last iteration converging to the regularized Nash equilibrium. Additionally, we explore parametric representations of policies and introduce gradient descent algorithms for deep-learning architectures. To demonstrate the effectiveness of our approach, we present experimental results involving the fine-tuning of a LLM for a text summarization task. We believe NLHF offers a compelling avenue for preference learning and policy optimization with the potential of advancing the field of aligning LLMs with human preferences.
PDF182December 15, 2024