Otimização de Política Nash Iterativa: Alinhando LLMs com Preferências Gerais através de Aprendizado Sem Arrependimento.
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning
June 30, 2024
Autores: Yuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu
cs.AI
Resumo
A Aprendizagem por Reforço com Feedback Humano (ARFH) alcançou grande sucesso em alinhar grandes modelos de linguagem (LLMs) com as preferências humanas. As abordagens prevalentes de ARFH são baseadas em recompensas, seguindo a suposição do modelo Bradley-Terry (BT), que pode não capturar totalmente a complexidade das preferências humanas. Neste artigo, exploramos a ARFH sob um framework de preferência geral e abordamos o problema a partir de uma perspectiva teórica de jogos. Especificamente, formulamos o problema como um jogo de dois jogadores e propomos um algoritmo inovador, otimização de política Nash iterativa (INPO). A ideia principal é permitir que a política jogue contra si mesma por meio de aprendizado sem arrependimento, aproximando assim a política Nash. Ao contrário de métodos anteriores, o INPO contorna a necessidade de estimar a taxa de vitória esperada para respostas individuais, o que normalmente acarreta custos computacionais ou de anotação elevados. Em vez disso, introduzimos um novo objetivo de perda que é minimizado diretamente em um conjunto de dados de preferência. Fornecemos uma análise teórica para nossa abordagem e demonstramos sua eficácia por meio de experimentos em vários benchmarks representativos. Com um modelo SFT baseado em LLaMA-3-8B, o INPO alcança uma taxa de vitória controlada por comprimento de 41,5% no AlpacaEval 2.0 e uma taxa de vitória de 38,3% no Arena-Hard, mostrando uma melhoria substancial em relação ao algoritmo iterativo estado-da-arte [Dong et al., 2024] sob a suposição do modelo BT. Além disso, nosso estudo de ablação destaca os benefícios da incorporação da regularização KL para o controle do comprimento da resposta.
English
Reinforcement Learning with Human Feedback (RLHF) has achieved great success
in aligning large language models (LLMs) with human preferences. Prevalent RLHF
approaches are reward-based, following the Bradley-Terry (BT) model assumption,
which may not fully capture the complexity of human preferences. In this paper,
we explore RLHF under a general preference framework and approach it from a
game-theoretic perspective. Specifically, we formulate the problem as a
two-player game and propose a novel algorithm, iterative Nash policy
optimization (INPO). The key idea is to let the policy play against itself via
no-regret learning, thereby approximating the Nash policy. Unlike previous
methods, INPO bypasses the need for estimating the expected win rate for
individual responses, which typically incurs high computational or annotation
costs. Instead, we introduce a new loss objective that is directly minimized
over a preference dataset. We provide theoretical analysis for our approach and
demonstrate its effectiveness through experiments on various representative
benchmarks. With an LLaMA-3-8B-based SFT model, INPO achieves a 41.5%
length-controlled win rate on AlpacaEval 2.0 and a 38.3% win rate on
Arena-Hard, showing substantial improvement over the state-of-the-art iterative
algorithm [Dong et al., 2024] under the BT model assumption. Additionally, our
ablation study highlights the benefits of incorporating KL regularization for
response length control.