ChatPaper.aiChatPaper

Optimización de Preferencias de Nash en Multijugador

Multiplayer Nash Preference Optimization

September 27, 2025
Autores: Fang Wu, Xu Huang, Weihao Xuan, Zhiwei Zhang, Yijia Xiao, Guancheng Wan, Xiaomin Li, Bing Hu, Peng Xia, Jure Leskovec, Yejin Choi
cs.AI

Resumen

El aprendizaje por refuerzo basado en retroalimentación humana (RLHF, por sus siglas en inglés) ha surgido como el paradigma estándar para alinear modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) con las preferencias humanas. Sin embargo, los métodos basados en recompensas construidos bajo el supuesto de Bradley-Terry tienen dificultades para capturar la naturaleza no transitiva y heterogénea de las preferencias del mundo real. Para abordar esto, estudios recientes han replanteado la alineación como un juego de Nash de dos jugadores, dando lugar al aprendizaje de Nash basado en retroalimentación humana (NLHF, por sus siglas en inglés). Aunque esta perspectiva ha inspirado algoritmos como INPO, ONPO y EGPO, con sólidas garantías teóricas y empíricas, estos siguen estando fundamentalmente restringidos a interacciones de dos jugadores, creando un sesgo de un solo oponente que no logra capturar la complejidad completa de las estructuras de preferencias realistas. En este trabajo, presentamos la Optimización de Preferencias de Nash Multi-Jugador (MNPO, por sus siglas en inglés), un marco novedoso que generaliza NLHF al régimen de múltiples jugadores. Este formula la alineación como un juego de n jugadores, donde cada política compite contra una población de oponentes mientras se regulariza hacia un modelo de referencia. Nuestro marco establece equilibrios de Nash bien definidos en entornos de múltiples jugadores y extiende el concepto de brecha de dualidad para cuantificar la calidad de la aproximación. Demostramos que MNPO hereda las garantías de equilibrio de los métodos de dos jugadores, al tiempo que permite dinámicas competitivas más ricas y una mejor cobertura de estructuras de preferencias diversas. A través de una evaluación empírica exhaustiva, mostramos que MNPO supera consistentemente los baselines existentes de NLHF en benchmarks de seguimiento de instrucciones, logrando una calidad de alineación superior bajo condiciones de anotadores heterogéneos y escenarios de evaluación de políticas mixtas. En conjunto, estos resultados establecen a MNPO como un marco fundamentado y escalable para alinear LLMs con preferencias humanas complejas y no transitivas. El código está disponible en https://github.com/smiles724/MNPO.
English
Reinforcement learning from human feedback (RLHF) has emerged as the standard paradigm for aligning large language models (LLMs) with human preferences. However, reward-based methods built on the Bradley-Terry assumption struggle to capture the non-transitive and heterogeneous nature of real-world preferences. To address this, recent studies have reframed alignment as a two-player Nash game, giving rise to Nash learning from human feedback (NLHF). While this perspective has inspired algorithms such as INPO, ONPO, and EGPO with strong theoretical and empirical guarantees, they remain fundamentally restricted to two-player interactions, creating a single-opponent bias that fails to capture the full complexity of realistic preference structures. In this work, we introduce Multiplayer Nash Preference Optimization (MNPO), a novel framework that generalizes NLHF to the multiplayer regime. It formulates alignment as an n-player game, where each policy competes against a population of opponents while being regularized toward a reference model. Our framework establishes well-defined Nash equilibria in multiplayer settings and extends the concept of duality gap to quantify approximation quality. We demonstrate that MNPO inherits the equilibrium guarantees of two-player methods while enabling richer competitive dynamics and improved coverage of diverse preference structures. Through comprehensive empirical evaluation, we show that MNPO consistently outperforms existing NLHF baselines on instruction-following benchmarks, achieving superior alignment quality under heterogeneous annotator conditions and mixed-policy evaluation scenarios. Together, these results establish MNPO as a principled and scalable framework for aligning LLMs with complex, non-transitive human preferences. Code is available at https://github.com/smiles724/MNPO.
PDF522September 30, 2025