Optimización de Preferencias de Nash en Multijugador
Multiplayer Nash Preference Optimization
September 27, 2025
Autores: Fang Wu, Xu Huang, Weihao Xuan, Zhiwei Zhang, Yijia Xiao, Guancheng Wan, Xiaomin Li, Bing Hu, Peng Xia, Jure Leskovec, Yejin Choi
cs.AI
Resumen
El aprendizaje por refuerzo basado en retroalimentación humana (RLHF, por sus siglas en inglés) ha surgido como el paradigma estándar para alinear modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) con las preferencias humanas. Sin embargo, los métodos basados en recompensas construidos bajo el supuesto de Bradley-Terry tienen dificultades para capturar la naturaleza no transitiva y heterogénea de las preferencias del mundo real. Para abordar esto, estudios recientes han replanteado la alineación como un juego de Nash de dos jugadores, dando lugar al aprendizaje de Nash basado en retroalimentación humana (NLHF, por sus siglas en inglés). Aunque esta perspectiva ha inspirado algoritmos como INPO, ONPO y EGPO, con sólidas garantías teóricas y empíricas, estos siguen estando fundamentalmente restringidos a interacciones de dos jugadores, creando un sesgo de un solo oponente que no logra capturar la complejidad completa de las estructuras de preferencias realistas. En este trabajo, presentamos la Optimización de Preferencias de Nash Multi-Jugador (MNPO, por sus siglas en inglés), un marco novedoso que generaliza NLHF al régimen de múltiples jugadores. Este formula la alineación como un juego de n jugadores, donde cada política compite contra una población de oponentes mientras se regulariza hacia un modelo de referencia. Nuestro marco establece equilibrios de Nash bien definidos en entornos de múltiples jugadores y extiende el concepto de brecha de dualidad para cuantificar la calidad de la aproximación. Demostramos que MNPO hereda las garantías de equilibrio de los métodos de dos jugadores, al tiempo que permite dinámicas competitivas más ricas y una mejor cobertura de estructuras de preferencias diversas. A través de una evaluación empírica exhaustiva, mostramos que MNPO supera consistentemente los baselines existentes de NLHF en benchmarks de seguimiento de instrucciones, logrando una calidad de alineación superior bajo condiciones de anotadores heterogéneos y escenarios de evaluación de políticas mixtas. En conjunto, estos resultados establecen a MNPO como un marco fundamentado y escalable para alinear LLMs con preferencias humanas complejas y no transitivas. El código está disponible en https://github.com/smiles724/MNPO.
English
Reinforcement learning from human feedback (RLHF) has emerged as the standard
paradigm for aligning large language models (LLMs) with human preferences.
However, reward-based methods built on the Bradley-Terry assumption struggle to
capture the non-transitive and heterogeneous nature of real-world preferences.
To address this, recent studies have reframed alignment as a two-player Nash
game, giving rise to Nash learning from human feedback (NLHF). While this
perspective has inspired algorithms such as INPO, ONPO, and EGPO with strong
theoretical and empirical guarantees, they remain fundamentally restricted to
two-player interactions, creating a single-opponent bias that fails to capture
the full complexity of realistic preference structures. In this work, we
introduce Multiplayer Nash Preference Optimization (MNPO), a novel framework
that generalizes NLHF to the multiplayer regime. It formulates alignment as an
n-player game, where each policy competes against a population of opponents
while being regularized toward a reference model. Our framework establishes
well-defined Nash equilibria in multiplayer settings and extends the concept of
duality gap to quantify approximation quality. We demonstrate that MNPO
inherits the equilibrium guarantees of two-player methods while enabling richer
competitive dynamics and improved coverage of diverse preference structures.
Through comprehensive empirical evaluation, we show that MNPO consistently
outperforms existing NLHF baselines on instruction-following benchmarks,
achieving superior alignment quality under heterogeneous annotator conditions
and mixed-policy evaluation scenarios. Together, these results establish MNPO
as a principled and scalable framework for aligning LLMs with complex,
non-transitive human preferences. Code is available at
https://github.com/smiles724/MNPO.