ChatPaper.aiChatPaper

Apprentissage de Nash à partir de retours humains

Nash Learning from Human Feedback

December 1, 2023
Auteurs: Rémi Munos, Michal Valko, Daniele Calandriello, Mohammad Gheshlaghi Azar, Mark Rowland, Daniel Guo, Yunhao Tang, Matthieu Geist, Thomas Mésnard, Andrea Michi, Marco Selvi, Sertan Girgin, Nikola Momchev, Olivier Bachem, Daniel J. Mankowitz, Doina Precup, Bilal Piot
cs.AI

Résumé

L'apprentissage par renforcement à partir de retours humains (RLHF) est devenu le principal paradigme pour aligner les grands modèles de langage (LLM) avec les préférences humaines. Typiquement, le RLHF implique une étape initiale d'apprentissage d'un modèle de récompense à partir de retours humains, souvent exprimés sous forme de préférences entre des paires de générations de texte produites par un LLM pré-entraîné. Par la suite, la politique du LLM est affinée en l'optimisant pour maximiser le modèle de récompense à travers un algorithme d'apprentissage par renforcement. Cependant, une limitation inhérente des modèles de récompense actuels est leur incapacité à représenter pleinement la richesse des préférences humaines et leur dépendance à la distribution d'échantillonnage. Dans cette étude, nous proposons une approche alternative pour l'affinage des LLM utilisant des retours humains par paires. Notre méthode consiste à apprendre initialement un modèle de préférence, qui est conditionné sur deux entrées données une incitation, suivi par la recherche d'une politique qui génère systématiquement des réponses préférées à celles générées par toute autre politique concurrente, définissant ainsi l'équilibre de Nash de ce modèle de préférence. Nous nommons cette approche l'apprentissage de Nash à partir de retours humains (NLHF). Dans le contexte d'une représentation tabulaire des politiques, nous présentons une nouvelle solution algorithmique, Nash-MD, fondée sur les principes de la descente miroir. Cet algorithme produit une séquence de politiques, dont la dernière itération converge vers l'équilibre de Nash régularisé. De plus, nous explorons les représentations paramétriques des politiques et introduisons des algorithmes de descente de gradient pour les architectures d'apprentissage profond. Pour démontrer l'efficacité de notre approche, nous présentons des résultats expérimentaux impliquant l'affinage d'un LLM pour une tâche de résumé de texte. Nous croyons que le NLHF offre une voie prometteuse pour l'apprentissage des préférences et l'optimisation des politiques, avec le potentiel de faire progresser le domaine de l'alignement des LLM avec les préférences humaines.
English
Reinforcement learning from human feedback (RLHF) has emerged as the main paradigm for aligning large language models (LLMs) with human preferences. Typically, RLHF involves the initial step of learning a reward model from human feedback, often expressed as preferences between pairs of text generations produced by a pre-trained LLM. Subsequently, the LLM's policy is fine-tuned by optimizing it to maximize the reward model through a reinforcement learning algorithm. However, an inherent limitation of current reward models is their inability to fully represent the richness of human preferences and their dependency on the sampling distribution. In this study, we introduce an alternative pipeline for the fine-tuning of LLMs using pairwise human feedback. Our approach entails the initial learning of a preference model, which is conditioned on two inputs given a prompt, followed by the pursuit of a policy that consistently generates responses preferred over those generated by any competing policy, thus defining the Nash equilibrium of this preference model. We term this approach Nash learning from human feedback (NLHF). In the context of a tabular policy representation, we present a novel algorithmic solution, Nash-MD, founded on the principles of mirror descent. This algorithm produces a sequence of policies, with the last iteration converging to the regularized Nash equilibrium. Additionally, we explore parametric representations of policies and introduce gradient descent algorithms for deep-learning architectures. To demonstrate the effectiveness of our approach, we present experimental results involving the fine-tuning of a LLM for a text summarization task. We believe NLHF offers a compelling avenue for preference learning and policy optimization with the potential of advancing the field of aligning LLMs with human preferences.
PDF182December 15, 2024