Optimisation des Préférences de Nash en Multijoueur
Multiplayer Nash Preference Optimization
September 27, 2025
papers.authors: Fang Wu, Xu Huang, Weihao Xuan, Zhiwei Zhang, Yijia Xiao, Guancheng Wan, Xiaomin Li, Bing Hu, Peng Xia, Jure Leskovec, Yejin Choi
cs.AI
papers.abstract
L'apprentissage par renforcement à partir de retours humains (RLHF) est devenu le paradigme standard pour aligner les grands modèles de langage (LLMs) sur les préférences humaines. Cependant, les méthodes basées sur les récompenses, fondées sur l'hypothèse de Bradley-Terry, peinent à capturer la nature non transitive et hétérogène des préférences du monde réel. Pour résoudre ce problème, des études récentes ont reformulé l'alignement comme un jeu de Nash à deux joueurs, donnant naissance à l'apprentissage de Nash à partir de retours humains (NLHF). Bien que cette perspective ait inspiré des algorithmes tels que INPO, ONPO et EGPO, dotés de garanties théoriques et empiriques solides, ils restent fondamentalement limités à des interactions à deux joueurs, créant un biais de l'adversaire unique qui ne parvient pas à capturer toute la complexité des structures de préférences réalistes. Dans ce travail, nous introduisons l'Optimisation des Préférences de Nash Multi-joueurs (MNPO), un cadre novateur qui généralise le NLHF au régime multi-joueurs. Il formule l'alignement comme un jeu à n joueurs, où chaque politique rivalise avec une population d'adversaires tout en étant régularisée vers un modèle de référence. Notre cadre établit des équilibres de Nash bien définis dans des contextes multi-joueurs et étend le concept d'écart de dualité pour quantifier la qualité de l'approximation. Nous démontrons que MNPO hérite des garanties d'équilibre des méthodes à deux joueurs tout en permettant des dynamiques compétitives plus riches et une meilleure couverture des structures de préférences diversifiées. À travers une évaluation empirique approfondie, nous montrons que MNPO surpasse systématiquement les bases de référence NLHF existantes sur des benchmarks de suivi d'instructions, atteignant une qualité d'alignement supérieure dans des conditions d'annotateurs hétérogènes et des scénarios d'évaluation de politiques mixtes. Ensemble, ces résultats établissent MNPO comme un cadre princié et scalable pour aligner les LLMs sur des préférences humaines complexes et non transitives. Le code est disponible à l'adresse https://github.com/smiles724/MNPO.
English
Reinforcement learning from human feedback (RLHF) has emerged as the standard
paradigm for aligning large language models (LLMs) with human preferences.
However, reward-based methods built on the Bradley-Terry assumption struggle to
capture the non-transitive and heterogeneous nature of real-world preferences.
To address this, recent studies have reframed alignment as a two-player Nash
game, giving rise to Nash learning from human feedback (NLHF). While this
perspective has inspired algorithms such as INPO, ONPO, and EGPO with strong
theoretical and empirical guarantees, they remain fundamentally restricted to
two-player interactions, creating a single-opponent bias that fails to capture
the full complexity of realistic preference structures. In this work, we
introduce Multiplayer Nash Preference Optimization (MNPO), a novel framework
that generalizes NLHF to the multiplayer regime. It formulates alignment as an
n-player game, where each policy competes against a population of opponents
while being regularized toward a reference model. Our framework establishes
well-defined Nash equilibria in multiplayer settings and extends the concept of
duality gap to quantify approximation quality. We demonstrate that MNPO
inherits the equilibrium guarantees of two-player methods while enabling richer
competitive dynamics and improved coverage of diverse preference structures.
Through comprehensive empirical evaluation, we show that MNPO consistently
outperforms existing NLHF baselines on instruction-following benchmarks,
achieving superior alignment quality under heterogeneous annotator conditions
and mixed-policy evaluation scenarios. Together, these results establish MNPO
as a principled and scalable framework for aligning LLMs with complex,
non-transitive human preferences. Code is available at
https://github.com/smiles724/MNPO.