Apprendimento di Nash dal Feedback Umano
Nash Learning from Human Feedback
December 1, 2023
Autori: Rémi Munos, Michal Valko, Daniele Calandriello, Mohammad Gheshlaghi Azar, Mark Rowland, Daniel Guo, Yunhao Tang, Matthieu Geist, Thomas Mésnard, Andrea Michi, Marco Selvi, Sertan Girgin, Nikola Momchev, Olivier Bachem, Daniel J. Mankowitz, Doina Precup, Bilal Piot
cs.AI
Abstract
L'apprendimento per rinforzo basato sul feedback umano (RLHF) è emerso come il paradigma principale per allineare i grandi modelli linguistici (LLM) alle preferenze umane. Tipicamente, l'RLHF prevede un passaggio iniziale di apprendimento di un modello di ricompensa dal feedback umano, spesso espresso come preferenze tra coppie di generazioni di testo prodotte da un LLM pre-addestrato. Successivamente, la politica dell'LLM viene affinata ottimizzandola per massimizzare il modello di ricompensa attraverso un algoritmo di apprendimento per rinforzo. Tuttavia, una limitazione intrinseca dei modelli di ricompensa attuali è la loro incapacità di rappresentare appieno la ricchezza delle preferenze umane e la loro dipendenza dalla distribuzione di campionamento.
In questo studio, introduciamo una pipeline alternativa per l'affinamento degli LLM utilizzando il feedback umano a coppie. Il nostro approccio prevede l'apprendimento iniziale di un modello di preferenza, che è condizionato su due input dati un prompt, seguito dalla ricerca di una politica che genera costantemente risposte preferite rispetto a quelle generate da qualsiasi altra politica concorrente, definendo così l'equilibrio di Nash di questo modello di preferenza. Definiamo questo approccio come apprendimento di Nash basato sul feedback umano (NLHF).
Nel contesto di una rappresentazione tabulare della politica, presentiamo una nuova soluzione algoritmica, Nash-MD, basata sui principi della discesa speculare. Questo algoritmo produce una sequenza di politiche, con l'ultima iterazione che converge all'equilibrio di Nash regolarizzato. Inoltre, esploriamo rappresentazioni parametriche delle politiche e introduciamo algoritmi di discesa del gradiente per architetture di deep learning. Per dimostrare l'efficacia del nostro approccio, presentiamo risultati sperimentali relativi all'affinamento di un LLM per un'attività di riassunto di testo. Crediamo che l'NLHF offra una prospettiva convincente per l'apprendimento delle preferenze e l'ottimizzazione delle politiche, con il potenziale di far progredire il campo dell'allineamento degli LLM alle preferenze umane.
English
Reinforcement learning from human feedback (RLHF) has emerged as the main
paradigm for aligning large language models (LLMs) with human preferences.
Typically, RLHF involves the initial step of learning a reward model from human
feedback, often expressed as preferences between pairs of text generations
produced by a pre-trained LLM. Subsequently, the LLM's policy is fine-tuned by
optimizing it to maximize the reward model through a reinforcement learning
algorithm. However, an inherent limitation of current reward models is their
inability to fully represent the richness of human preferences and their
dependency on the sampling distribution.
In this study, we introduce an alternative pipeline for the fine-tuning of
LLMs using pairwise human feedback. Our approach entails the initial learning
of a preference model, which is conditioned on two inputs given a prompt,
followed by the pursuit of a policy that consistently generates responses
preferred over those generated by any competing policy, thus defining the Nash
equilibrium of this preference model. We term this approach Nash learning from
human feedback (NLHF).
In the context of a tabular policy representation, we present a novel
algorithmic solution, Nash-MD, founded on the principles of mirror descent.
This algorithm produces a sequence of policies, with the last iteration
converging to the regularized Nash equilibrium. Additionally, we explore
parametric representations of policies and introduce gradient descent
algorithms for deep-learning architectures. To demonstrate the effectiveness of
our approach, we present experimental results involving the fine-tuning of a
LLM for a text summarization task. We believe NLHF offers a compelling avenue
for preference learning and policy optimization with the potential of advancing
the field of aligning LLMs with human preferences.