MaPPO: Ottimizzazione delle Preferenze a Posteriori Massima con Conoscenza A Priori
MaPPO: Maximum a Posteriori Preference Optimization with Prior Knowledge
July 27, 2025
Autori: Guangchen Lan, Sipeng Zhang, Tianle Wang, Yuwei Zhang, Daoan Zhang, Xinpeng Wei, Xiaoman Pan, Hongming Zhang, Dong-Jun Han, Christopher G. Brinton
cs.AI
Abstract
Mentre si apre l'era dei grandi modelli linguistici (LLM) che agiscono per conto degli utenti, i metodi di Ottimizzazione delle Preferenze (PO) sono diventati un approccio centrale per allineare gli LLM alle preferenze umane e migliorarne le prestazioni. Proponiamo Maximum a Posteriori Preference Optimization (MaPPO), un framework per l'apprendimento dalle preferenze che incorpora esplicitamente conoscenze pregresse sulle ricompense nell'obiettivo di ottimizzazione. Mentre metodi esistenti come Direct Preference Optimization (DPO) e le sue varianti trattano l'apprendimento delle preferenze come un problema di Massima Verosimiglianza (MLE), MaPPO estende questo paradigma integrando stime pregresse delle ricompense in un obiettivo di Massimo a Posteriori (MaP) ben fondato. Ciò non solo generalizza DPO e le sue varianti, ma migliora anche l'allineamento mitigando la classificazione binaria eccessivamente semplificata delle risposte. Ancora più importante, MaPPO non introduce ulteriori iperparametri e supporta l'ottimizzazione delle preferenze sia in contesti offline che online. Inoltre, MaPPO può essere utilizzato come plugin con miglioramenti consistenti sulle varianti di DPO, tra cui le ampiamente utilizzate SimPO, IPO e CPO. Valutazioni empiriche estensive su diverse dimensioni e serie di modelli su tre benchmark standard, tra cui MT-Bench, AlpacaEval 2.0 e Arena-Hard, dimostrano miglioramenti consistenti nelle prestazioni di allineamento senza sacrificare l'efficienza computazionale.
English
As the era of large language models (LLMs) on behalf of users unfolds,
Preference Optimization (PO) methods have become a central approach to aligning
LLMs with human preferences and improving performance. We propose Maximum a
Posteriori Preference Optimization (MaPPO), a framework for learning from
preferences that explicitly incorporates prior reward knowledge into the
optimization objective. While existing methods such as Direct Preference
Optimization (DPO) and its variants treat preference learning as a Maximum
Likelihood Estimation (MLE) problem, MaPPO extends this paradigm by integrating
prior reward estimates into a principled Maximum a Posteriori (MaP) objective.
This not only generalizes DPO and its variants, but also enhances alignment by
mitigating the oversimplified binary classification of responses. More
importantly, MaPPO introduces no additional hyperparameter, and supports
preference optimization in both offline and online settings. In addition, MaPPO
can be used as a plugin with consistent improvement on DPO variants, including
widely used SimPO, IPO, and CPO. Extensive empirical evaluations of different
model sizes and model series on three standard benchmarks, including MT-Bench,
AlpacaEval 2.0, and Arena-Hard, demonstrate consistent improvements in
alignment performance without sacrificing computational efficiency.