MaPPO : Optimisation des Préférences a Posteriori Maximale avec Connaissances Préalables
MaPPO: Maximum a Posteriori Preference Optimization with Prior Knowledge
July 27, 2025
papers.authors: Guangchen Lan, Sipeng Zhang, Tianle Wang, Yuwei Zhang, Daoan Zhang, Xinpeng Wei, Xiaoman Pan, Hongming Zhang, Dong-Jun Han, Christopher G. Brinton
cs.AI
papers.abstract
Alors que l'ère des grands modèles de langage (LLMs) agissant au nom des utilisateurs se déploie, les méthodes d'Optimisation des Préférences (Preference Optimization, PO) sont devenues une approche centrale pour aligner les LLMs sur les préférences humaines et améliorer leurs performances. Nous proposons l'Optimisation des Préférences par Maximum a Posteriori (MaPPO), un cadre d'apprentissage à partir des préférences qui intègre explicitement des connaissances préalables sur les récompenses dans l'objectif d'optimisation. Alors que les méthodes existantes telles que l'Optimisation Directe des Préférences (Direct Preference Optimization, DPO) et ses variantes traitent l'apprentissage des préférences comme un problème d'Estimation du Maximum de Vraisemblance (Maximum Likelihood Estimation, MLE), MaPPO étend ce paradigme en intégrant des estimations préalables de récompense dans un objectif de Maximum a Posteriori (MaP) structuré. Cela généralise non seulement DPO et ses variantes, mais améliore également l'alignement en atténuant la classification binaire simpliste des réponses. Plus important encore, MaPPO n'introduit aucun hyperparamètre supplémentaire et prend en charge l'optimisation des préférences dans des contextes hors ligne et en ligne. De plus, MaPPO peut être utilisé comme un module complémentaire, apportant des améliorations constantes aux variantes de DPO, y compris les méthodes largement utilisées telles que SimPO, IPO et CPO. Des évaluations empiriques approfondies sur différentes tailles de modèles et séries de modèles, sur trois benchmarks standards incluant MT-Bench, AlpacaEval 2.0 et Arena-Hard, démontrent des améliorations constantes des performances d'alignement sans sacrifier l'efficacité computationnelle.
English
As the era of large language models (LLMs) on behalf of users unfolds,
Preference Optimization (PO) methods have become a central approach to aligning
LLMs with human preferences and improving performance. We propose Maximum a
Posteriori Preference Optimization (MaPPO), a framework for learning from
preferences that explicitly incorporates prior reward knowledge into the
optimization objective. While existing methods such as Direct Preference
Optimization (DPO) and its variants treat preference learning as a Maximum
Likelihood Estimation (MLE) problem, MaPPO extends this paradigm by integrating
prior reward estimates into a principled Maximum a Posteriori (MaP) objective.
This not only generalizes DPO and its variants, but also enhances alignment by
mitigating the oversimplified binary classification of responses. More
importantly, MaPPO introduces no additional hyperparameter, and supports
preference optimization in both offline and online settings. In addition, MaPPO
can be used as a plugin with consistent improvement on DPO variants, including
widely used SimPO, IPO, and CPO. Extensive empirical evaluations of different
model sizes and model series on three standard benchmarks, including MT-Bench,
AlpacaEval 2.0, and Arena-Hard, demonstrate consistent improvements in
alignment performance without sacrificing computational efficiency.