MaPPO: Maximum a Posteriori Voorkeursoptimalisatie met Voorafgaande Kennis
MaPPO: Maximum a Posteriori Preference Optimization with Prior Knowledge
July 27, 2025
Auteurs: Guangchen Lan, Sipeng Zhang, Tianle Wang, Yuwei Zhang, Daoan Zhang, Xinpeng Wei, Xiaoman Pan, Hongming Zhang, Dong-Jun Han, Christopher G. Brinton
cs.AI
Samenvatting
Naarmate het tijdperk van grote taalmodellen (LLMs) namens gebruikers zich ontvouwt, zijn Preference Optimization (PO) methoden een centrale aanpak geworden om LLMs af te stemmen op menselijke voorkeuren en de prestaties te verbeteren. Wij stellen Maximum a Posteriori Preference Optimization (MaPPO) voor, een raamwerk voor het leren van voorkeuren dat expliciet eerdere beloningskennis integreert in het optimalisatiedoel. Terwijl bestaande methoden zoals Direct Preference Optimization (DPO) en zijn varianten voorkeursleren behandelen als een Maximum Likelihood Estimation (MLE) probleem, breidt MaPPO dit paradigma uit door eerdere beloningsschattingen te integreren in een principieel Maximum a Posteriori (MaP) doel. Dit generaliseert niet alleen DPO en zijn varianten, maar verbetert ook de afstemming door de oversimplificatie van binaire classificatie van reacties te verminderen. Belangrijker nog, MaPPO introduceert geen extra hyperparameter en ondersteunt voorkeursoptimalisatie in zowel offline als online settings. Bovendien kan MaPPO worden gebruikt als een plugin met consistente verbetering op DPO-varianten, waaronder veelgebruikte SimPO, IPO, en CPO. Uitgebreide empirische evaluaties van verschillende modelgroottes en modelseries op drie standaard benchmarks, waaronder MT-Bench, AlpacaEval 2.0, en Arena-Hard, tonen consistente verbeteringen in afstemmingsprestaties zonder in te leveren op computationele efficiëntie.
English
As the era of large language models (LLMs) on behalf of users unfolds,
Preference Optimization (PO) methods have become a central approach to aligning
LLMs with human preferences and improving performance. We propose Maximum a
Posteriori Preference Optimization (MaPPO), a framework for learning from
preferences that explicitly incorporates prior reward knowledge into the
optimization objective. While existing methods such as Direct Preference
Optimization (DPO) and its variants treat preference learning as a Maximum
Likelihood Estimation (MLE) problem, MaPPO extends this paradigm by integrating
prior reward estimates into a principled Maximum a Posteriori (MaP) objective.
This not only generalizes DPO and its variants, but also enhances alignment by
mitigating the oversimplified binary classification of responses. More
importantly, MaPPO introduces no additional hyperparameter, and supports
preference optimization in both offline and online settings. In addition, MaPPO
can be used as a plugin with consistent improvement on DPO variants, including
widely used SimPO, IPO, and CPO. Extensive empirical evaluations of different
model sizes and model series on three standard benchmarks, including MT-Bench,
AlpacaEval 2.0, and Arena-Hard, demonstrate consistent improvements in
alignment performance without sacrificing computational efficiency.