Apprentissage de Nash à partir de retours humains
Nash Learning from Human Feedback
December 1, 2023
Auteurs: Rémi Munos, Michal Valko, Daniele Calandriello, Mohammad Gheshlaghi Azar, Mark Rowland, Daniel Guo, Yunhao Tang, Matthieu Geist, Thomas Mésnard, Andrea Michi, Marco Selvi, Sertan Girgin, Nikola Momchev, Olivier Bachem, Daniel J. Mankowitz, Doina Precup, Bilal Piot
cs.AI
Résumé
L'apprentissage par renforcement à partir de retours humains (RLHF) est devenu le principal paradigme pour aligner les grands modèles de langage (LLM) avec les préférences humaines. Typiquement, le RLHF implique une étape initiale d'apprentissage d'un modèle de récompense à partir de retours humains, souvent exprimés sous forme de préférences entre des paires de générations de texte produites par un LLM pré-entraîné. Par la suite, la politique du LLM est affinée en l'optimisant pour maximiser le modèle de récompense à travers un algorithme d'apprentissage par renforcement. Cependant, une limitation inhérente des modèles de récompense actuels est leur incapacité à représenter pleinement la richesse des préférences humaines et leur dépendance à la distribution d'échantillonnage.
Dans cette étude, nous proposons une approche alternative pour l'affinage des LLM utilisant des retours humains par paires. Notre méthode consiste à apprendre initialement un modèle de préférence, qui est conditionné sur deux entrées données une incitation, suivi par la recherche d'une politique qui génère systématiquement des réponses préférées à celles générées par toute autre politique concurrente, définissant ainsi l'équilibre de Nash de ce modèle de préférence. Nous nommons cette approche l'apprentissage de Nash à partir de retours humains (NLHF).
Dans le contexte d'une représentation tabulaire des politiques, nous présentons une nouvelle solution algorithmique, Nash-MD, fondée sur les principes de la descente miroir. Cet algorithme produit une séquence de politiques, dont la dernière itération converge vers l'équilibre de Nash régularisé. De plus, nous explorons les représentations paramétriques des politiques et introduisons des algorithmes de descente de gradient pour les architectures d'apprentissage profond. Pour démontrer l'efficacité de notre approche, nous présentons des résultats expérimentaux impliquant l'affinage d'un LLM pour une tâche de résumé de texte. Nous croyons que le NLHF offre une voie prometteuse pour l'apprentissage des préférences et l'optimisation des politiques, avec le potentiel de faire progresser le domaine de l'alignement des LLM avec les préférences humaines.
English
Reinforcement learning from human feedback (RLHF) has emerged as the main
paradigm for aligning large language models (LLMs) with human preferences.
Typically, RLHF involves the initial step of learning a reward model from human
feedback, often expressed as preferences between pairs of text generations
produced by a pre-trained LLM. Subsequently, the LLM's policy is fine-tuned by
optimizing it to maximize the reward model through a reinforcement learning
algorithm. However, an inherent limitation of current reward models is their
inability to fully represent the richness of human preferences and their
dependency on the sampling distribution.
In this study, we introduce an alternative pipeline for the fine-tuning of
LLMs using pairwise human feedback. Our approach entails the initial learning
of a preference model, which is conditioned on two inputs given a prompt,
followed by the pursuit of a policy that consistently generates responses
preferred over those generated by any competing policy, thus defining the Nash
equilibrium of this preference model. We term this approach Nash learning from
human feedback (NLHF).
In the context of a tabular policy representation, we present a novel
algorithmic solution, Nash-MD, founded on the principles of mirror descent.
This algorithm produces a sequence of policies, with the last iteration
converging to the regularized Nash equilibrium. Additionally, we explore
parametric representations of policies and introduce gradient descent
algorithms for deep-learning architectures. To demonstrate the effectiveness of
our approach, we present experimental results involving the fine-tuning of a
LLM for a text summarization task. We believe NLHF offers a compelling avenue
for preference learning and policy optimization with the potential of advancing
the field of aligning LLMs with human preferences.