ChatPaper.aiChatPaper

MaPPO : Optimisation des Préférences a Posteriori Maximale avec Connaissances Préalables

MaPPO: Maximum a Posteriori Preference Optimization with Prior Knowledge

July 27, 2025
papers.authors: Guangchen Lan, Sipeng Zhang, Tianle Wang, Yuwei Zhang, Daoan Zhang, Xinpeng Wei, Xiaoman Pan, Hongming Zhang, Dong-Jun Han, Christopher G. Brinton
cs.AI

papers.abstract

Alors que l'ère des grands modèles de langage (LLMs) agissant au nom des utilisateurs se déploie, les méthodes d'Optimisation des Préférences (Preference Optimization, PO) sont devenues une approche centrale pour aligner les LLMs sur les préférences humaines et améliorer leurs performances. Nous proposons l'Optimisation des Préférences par Maximum a Posteriori (MaPPO), un cadre d'apprentissage à partir des préférences qui intègre explicitement des connaissances préalables sur les récompenses dans l'objectif d'optimisation. Alors que les méthodes existantes telles que l'Optimisation Directe des Préférences (Direct Preference Optimization, DPO) et ses variantes traitent l'apprentissage des préférences comme un problème d'Estimation du Maximum de Vraisemblance (Maximum Likelihood Estimation, MLE), MaPPO étend ce paradigme en intégrant des estimations préalables de récompense dans un objectif de Maximum a Posteriori (MaP) structuré. Cela généralise non seulement DPO et ses variantes, mais améliore également l'alignement en atténuant la classification binaire simpliste des réponses. Plus important encore, MaPPO n'introduit aucun hyperparamètre supplémentaire et prend en charge l'optimisation des préférences dans des contextes hors ligne et en ligne. De plus, MaPPO peut être utilisé comme un module complémentaire, apportant des améliorations constantes aux variantes de DPO, y compris les méthodes largement utilisées telles que SimPO, IPO et CPO. Des évaluations empiriques approfondies sur différentes tailles de modèles et séries de modèles, sur trois benchmarks standards incluant MT-Bench, AlpacaEval 2.0 et Arena-Hard, démontrent des améliorations constantes des performances d'alignement sans sacrifier l'efficacité computationnelle.
English
As the era of large language models (LLMs) on behalf of users unfolds, Preference Optimization (PO) methods have become a central approach to aligning LLMs with human preferences and improving performance. We propose Maximum a Posteriori Preference Optimization (MaPPO), a framework for learning from preferences that explicitly incorporates prior reward knowledge into the optimization objective. While existing methods such as Direct Preference Optimization (DPO) and its variants treat preference learning as a Maximum Likelihood Estimation (MLE) problem, MaPPO extends this paradigm by integrating prior reward estimates into a principled Maximum a Posteriori (MaP) objective. This not only generalizes DPO and its variants, but also enhances alignment by mitigating the oversimplified binary classification of responses. More importantly, MaPPO introduces no additional hyperparameter, and supports preference optimization in both offline and online settings. In addition, MaPPO can be used as a plugin with consistent improvement on DPO variants, including widely used SimPO, IPO, and CPO. Extensive empirical evaluations of different model sizes and model series on three standard benchmarks, including MT-Bench, AlpacaEval 2.0, and Arena-Hard, demonstrate consistent improvements in alignment performance without sacrificing computational efficiency.
PDF102July 30, 2025