Acelerando o Aprendizado de Nash a partir de Feedback Humano via Mirror Prox
Accelerating Nash Learning from Human Feedback via Mirror Prox
May 26, 2025
Autores: Daniil Tiapkin, Daniele Calandriello, Denis Belomestny, Eric Moulines, Alexey Naumov, Kashif Rasul, Michal Valko, Pierre Menard
cs.AI
Resumo
O Aprendizado por Reforço Tradicional com Feedback Humano (RLHF) frequentemente depende de modelos de recompensa, assumindo comumente estruturas de preferência como o modelo Bradley-Terry, que pode não capturar com precisão as complexidades das preferências humanas reais (por exemplo, intransitividade). O Aprendizado de Nash com Feedback Humano (NLHF) oferece uma alternativa mais direta ao enquadrar o problema como a busca por um equilíbrio de Nash em um jogo definido por essas preferências. Neste trabalho, introduzimos o Nash Mirror Prox (Nash-MP), um algoritmo NLHF online que utiliza o esquema de otimização Mirror Prox para alcançar convergência rápida e estável para o equilíbrio de Nash. Nossa análise teórica estabelece que o Nash-MP exibe convergência linear na última iteração em direção ao equilíbrio de Nash beta-regularizado. Especificamente, provamos que a divergência KL para a política ótima diminui a uma taxa de ordem (1+2beta)^{-N/2}, onde N é o número de consultas de preferência. Além disso, demonstramos convergência linear na última iteração para a lacuna de explorabilidade e uniformemente para a semi-norma do span das probabilidades logarítmicas, com todas essas taxas sendo independentes do tamanho do espaço de ação. Adicionalmente, propomos e analisamos uma versão aproximada do Nash-MP, onde os passos proximais são estimados usando gradientes de política estocásticos, tornando o algoritmo mais próximo das aplicações práticas. Por fim, detalhamos uma estratégia de implementação prática para o ajuste fino de modelos de linguagem de grande porte e apresentamos experimentos que demonstram seu desempenho competitivo e compatibilidade com métodos existentes.
English
Traditional Reinforcement Learning from Human Feedback (RLHF) often relies on
reward models, frequently assuming preference structures like the Bradley-Terry
model, which may not accurately capture the complexities of real human
preferences (e.g., intransitivity). Nash Learning from Human Feedback (NLHF)
offers a more direct alternative by framing the problem as finding a Nash
equilibrium of a game defined by these preferences. In this work, we introduce
Nash Mirror Prox (Nash-MP), an online NLHF algorithm that leverages
the Mirror Prox optimization scheme to achieve fast and stable convergence to
the Nash equilibrium. Our theoretical analysis establishes that Nash-MP
exhibits last-iterate linear convergence towards the beta-regularized Nash
equilibrium. Specifically, we prove that the KL-divergence to the optimal
policy decreases at a rate of order (1+2beta)^{-N/2}, where N is a number
of preference queries. We further demonstrate last-iterate linear convergence
for the exploitability gap and uniformly for the span semi-norm of
log-probabilities, with all these rates being independent of the size of the
action space. Furthermore, we propose and analyze an approximate version of
Nash-MP where proximal steps are estimated using stochastic policy gradients,
making the algorithm closer to applications. Finally, we detail a practical
implementation strategy for fine-tuning large language models and present
experiments that demonstrate its competitive performance and compatibility with
existing methods.