Aprendizaje de Nash a partir de Retroalimentación Humana
Nash Learning from Human Feedback
December 1, 2023
Autores: Rémi Munos, Michal Valko, Daniele Calandriello, Mohammad Gheshlaghi Azar, Mark Rowland, Daniel Guo, Yunhao Tang, Matthieu Geist, Thomas Mésnard, Andrea Michi, Marco Selvi, Sertan Girgin, Nikola Momchev, Olivier Bachem, Daniel J. Mankowitz, Doina Precup, Bilal Piot
cs.AI
Resumen
El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés) ha surgido como el paradigma principal para alinear los modelos de lenguaje de gran escala (LLMs) con las preferencias humanas. Típicamente, RLHF implica un primer paso de aprendizaje de un modelo de recompensa a partir de la retroalimentación humana, a menudo expresada como preferencias entre pares de generaciones de texto producidas por un LLM preentrenado. Posteriormente, la política del LLM se ajusta optimizándola para maximizar el modelo de recompensa mediante un algoritmo de aprendizaje por refuerzo. Sin embargo, una limitación inherente de los modelos de recompensa actuales es su incapacidad para representar plenamente la riqueza de las preferencias humanas y su dependencia de la distribución de muestreo.
En este estudio, presentamos una alternativa para el ajuste fino de LLMs utilizando retroalimentación humana por pares. Nuestro enfoque implica el aprendizaje inicial de un modelo de preferencias, el cual se condiciona a dos entradas dadas una instrucción, seguido de la búsqueda de una política que genere consistentemente respuestas preferidas sobre aquellas generadas por cualquier política competidora, definiendo así el equilibrio de Nash de este modelo de preferencias. Denominamos a este enfoque aprendizaje de Nash a partir de retroalimentación humana (NLHF, por sus siglas en inglés).
En el contexto de una representación tabular de políticas, presentamos una solución algorítmica novedosa, Nash-MD, basada en los principios del descenso de espejo. Este algoritmo produce una secuencia de políticas, con la última iteración convergiendo al equilibrio de Nash regularizado. Además, exploramos representaciones paramétricas de políticas e introducimos algoritmos de descenso de gradiente para arquitecturas de aprendizaje profundo. Para demostrar la efectividad de nuestro enfoque, presentamos resultados experimentales que involucran el ajuste fino de un LLM para una tarea de resumen de texto. Creemos que NLHF ofrece una vía convincente para el aprendizaje de preferencias y la optimización de políticas, con el potencial de avanzar en el campo de la alineación de LLMs con las preferencias humanas.
English
Reinforcement learning from human feedback (RLHF) has emerged as the main
paradigm for aligning large language models (LLMs) with human preferences.
Typically, RLHF involves the initial step of learning a reward model from human
feedback, often expressed as preferences between pairs of text generations
produced by a pre-trained LLM. Subsequently, the LLM's policy is fine-tuned by
optimizing it to maximize the reward model through a reinforcement learning
algorithm. However, an inherent limitation of current reward models is their
inability to fully represent the richness of human preferences and their
dependency on the sampling distribution.
In this study, we introduce an alternative pipeline for the fine-tuning of
LLMs using pairwise human feedback. Our approach entails the initial learning
of a preference model, which is conditioned on two inputs given a prompt,
followed by the pursuit of a policy that consistently generates responses
preferred over those generated by any competing policy, thus defining the Nash
equilibrium of this preference model. We term this approach Nash learning from
human feedback (NLHF).
In the context of a tabular policy representation, we present a novel
algorithmic solution, Nash-MD, founded on the principles of mirror descent.
This algorithm produces a sequence of policies, with the last iteration
converging to the regularized Nash equilibrium. Additionally, we explore
parametric representations of policies and introduce gradient descent
algorithms for deep-learning architectures. To demonstrate the effectiveness of
our approach, we present experimental results involving the fine-tuning of a
LLM for a text summarization task. We believe NLHF offers a compelling avenue
for preference learning and policy optimization with the potential of advancing
the field of aligning LLMs with human preferences.