ChatPaper.aiChatPaper

Aprendizado de Nash a partir de Feedback Humano

Nash Learning from Human Feedback

December 1, 2023
Autores: Rémi Munos, Michal Valko, Daniele Calandriello, Mohammad Gheshlaghi Azar, Mark Rowland, Daniel Guo, Yunhao Tang, Matthieu Geist, Thomas Mésnard, Andrea Michi, Marco Selvi, Sertan Girgin, Nikola Momchev, Olivier Bachem, Daniel J. Mankowitz, Doina Precup, Bilal Piot
cs.AI

Resumo

O aprendizado por reforço a partir de feedback humano (RLHF) emergiu como o principal paradigma para alinhar grandes modelos de linguagem (LLMs) com as preferências humanas. Tipicamente, o RLHF envolve a etapa inicial de aprender um modelo de recompensa a partir do feedback humano, frequentemente expresso como preferências entre pares de gerações de texto produzidas por um LLM pré-treinado. Posteriormente, a política do LLM é ajustada otimizando-a para maximizar o modelo de recompensa por meio de um algoritmo de aprendizado por reforço. No entanto, uma limitação inerente dos modelos de recompensa atuais é sua incapacidade de representar plenamente a riqueza das preferências humanas e sua dependência da distribuição de amostragem. Neste estudo, introduzimos um pipeline alternativo para o ajuste fino de LLMs utilizando feedback humano em pares. Nossa abordagem envolve o aprendizado inicial de um modelo de preferência, que é condicionado a duas entradas dadas uma instrução, seguido pela busca de uma política que consistentemente gere respostas preferidas em relação àquelas geradas por qualquer política concorrente, definindo assim o equilíbrio de Nash desse modelo de preferência. Denominamos essa abordagem de aprendizado de Nash a partir de feedback humano (NLHF). No contexto de uma representação tabular de políticas, apresentamos uma nova solução algorítmica, o Nash-MD, fundamentada nos princípios do descenso de espelho. Esse algoritmo produz uma sequência de políticas, com a última iteração convergindo para o equilíbrio de Nash regularizado. Adicionalmente, exploramos representações paramétricas de políticas e introduzimos algoritmos de descenso de gradiente para arquiteturas de aprendizado profundo. Para demonstrar a eficácia de nossa abordagem, apresentamos resultados experimentais envolvendo o ajuste fino de um LLM para uma tarefa de sumarização de texto. Acreditamos que o NLHF oferece uma via promissora para o aprendizado de preferências e a otimização de políticas, com o potencial de avançar o campo do alinhamento de LLMs com as preferências humanas.
English
Reinforcement learning from human feedback (RLHF) has emerged as the main paradigm for aligning large language models (LLMs) with human preferences. Typically, RLHF involves the initial step of learning a reward model from human feedback, often expressed as preferences between pairs of text generations produced by a pre-trained LLM. Subsequently, the LLM's policy is fine-tuned by optimizing it to maximize the reward model through a reinforcement learning algorithm. However, an inherent limitation of current reward models is their inability to fully represent the richness of human preferences and their dependency on the sampling distribution. In this study, we introduce an alternative pipeline for the fine-tuning of LLMs using pairwise human feedback. Our approach entails the initial learning of a preference model, which is conditioned on two inputs given a prompt, followed by the pursuit of a policy that consistently generates responses preferred over those generated by any competing policy, thus defining the Nash equilibrium of this preference model. We term this approach Nash learning from human feedback (NLHF). In the context of a tabular policy representation, we present a novel algorithmic solution, Nash-MD, founded on the principles of mirror descent. This algorithm produces a sequence of policies, with the last iteration converging to the regularized Nash equilibrium. Additionally, we explore parametric representations of policies and introduce gradient descent algorithms for deep-learning architectures. To demonstrate the effectiveness of our approach, we present experimental results involving the fine-tuning of a LLM for a text summarization task. We believe NLHF offers a compelling avenue for preference learning and policy optimization with the potential of advancing the field of aligning LLMs with human preferences.
PDF182February 7, 2026