Optimización Iterativa de Políticas de Nash: Alineando Modelos de Lenguaje con Preferencias Generales mediante Aprendizaje Sin Arrepentimiento
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning
June 30, 2024
Autores: Yuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu
cs.AI
Resumen
El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) ha logrado un gran éxito en la alineación de modelos de lenguaje grandes (LLMs) con las preferencias humanas. Los enfoques predominantes de RLHF se basan en recompensas, siguiendo el supuesto del modelo de Bradley-Terry (BT), que puede no capturar completamente la complejidad de las preferencias humanas. En este artículo, exploramos RLHF bajo un marco general de preferencias y lo abordamos desde una perspectiva de teoría de juegos. Específicamente, formulamos el problema como un juego de dos jugadores y proponemos un nuevo algoritmo, la optimización iterativa de políticas de Nash (INPO, por sus siglas en inglés). La idea clave es hacer que la política juegue contra sí misma mediante aprendizaje sin arrepentimiento, aproximando así la política de Nash. A diferencia de métodos anteriores, INPO evita la necesidad de estimar la tasa de victoria esperada para respuestas individuales, lo que generalmente incurre en altos costos computacionales o de anotación. En su lugar, introducimos un nuevo objetivo de pérdida que se minimiza directamente sobre un conjunto de datos de preferencias. Proporcionamos un análisis teórico para nuestro enfoque y demostramos su efectividad mediante experimentos en varios puntos de referencia representativos. Con un modelo SFT basado en LLaMA-3-8B, INPO logra una tasa de victoria controlada por longitud del 41.5% en AlpacaEval 2.0 y una tasa de victoria del 38.3% en Arena-Hard, mostrando una mejora sustancial sobre el algoritmo iterativo más avanzado [Dong et al., 2024] bajo el supuesto del modelo BT. Además, nuestro estudio de ablación destaca los beneficios de incorporar regularización KL para el control de la longitud de las respuestas.
English
Reinforcement Learning with Human Feedback (RLHF) has achieved great success
in aligning large language models (LLMs) with human preferences. Prevalent RLHF
approaches are reward-based, following the Bradley-Terry (BT) model assumption,
which may not fully capture the complexity of human preferences. In this paper,
we explore RLHF under a general preference framework and approach it from a
game-theoretic perspective. Specifically, we formulate the problem as a
two-player game and propose a novel algorithm, iterative Nash policy
optimization (INPO). The key idea is to let the policy play against itself via
no-regret learning, thereby approximating the Nash policy. Unlike previous
methods, INPO bypasses the need for estimating the expected win rate for
individual responses, which typically incurs high computational or annotation
costs. Instead, we introduce a new loss objective that is directly minimized
over a preference dataset. We provide theoretical analysis for our approach and
demonstrate its effectiveness through experiments on various representative
benchmarks. With an LLaMA-3-8B-based SFT model, INPO achieves a 41.5%
length-controlled win rate on AlpacaEval 2.0 and a 38.3% win rate on
Arena-Hard, showing substantial improvement over the state-of-the-art iterative
algorithm [Dong et al., 2024] under the BT model assumption. Additionally, our
ablation study highlights the benefits of incorporating KL regularization for
response length control.Summary
AI-Generated Summary