MaPPO: Maximum-a-Posteriori-Präferenzoptimierung mit Vorwissen
MaPPO: Maximum a Posteriori Preference Optimization with Prior Knowledge
July 27, 2025
papers.authors: Guangchen Lan, Sipeng Zhang, Tianle Wang, Yuwei Zhang, Daoan Zhang, Xinpeng Wei, Xiaoman Pan, Hongming Zhang, Dong-Jun Han, Christopher G. Brinton
cs.AI
papers.abstract
Mit dem Aufkommen der Ära großer Sprachmodelle (LLMs) im Namen der Nutzer sind
Preference Optimization (PO)-Methoden zu einem zentralen Ansatz geworden, um
LLMs mit menschlichen Präferenzen abzustimmen und die Leistung zu verbessern. Wir
schlagen Maximum a Posteriori Preference Optimization (MaPPO) vor, ein Framework
für das Lernen aus Präferenzen, das explizit vorheriges Wissen über Belohnungen
in das Optimierungsziel integriert. Während bestehende Methoden wie Direct
Preference Optimization (DPO) und deren Varianten das Präferenzlernen als ein
Maximum Likelihood Estimation (MLE)-Problem behandeln, erweitert MaPPO dieses
Paradigma, indem es vorherige Belohnungsschätzungen in ein fundiertes Maximum a
Posteriori (MaP)-Ziel integriert. Dies verallgemeinert nicht nur DPO und dessen
Varianten, sondern verbessert auch die Abstimmung, indem es die vereinfachte
binäre Klassifizierung von Antworten reduziert. Noch wichtiger ist, dass MaPPO
keine zusätzlichen Hyperparameter einführt und die Präferenzoptimierung sowohl
in Offline- als auch in Online-Settings unterstützt. Darüber hinaus kann MaPPO
als Plugin verwendet werden, das konsistente Verbesserungen bei DPO-Varianten
einschließlich der weit verbreiteten SimPO, IPO und CPO bietet. Umfangreiche
empirische Auswertungen verschiedener Modellgrößen und Modellserien auf drei
Standard-Benchmarks, darunter MT-Bench, AlpacaEval 2.0 und Arena-Hard, zeigen
konsistente Verbesserungen in der Abstimmungsleistung, ohne die
Recheneffizienz zu beeinträchtigen.
English
As the era of large language models (LLMs) on behalf of users unfolds,
Preference Optimization (PO) methods have become a central approach to aligning
LLMs with human preferences and improving performance. We propose Maximum a
Posteriori Preference Optimization (MaPPO), a framework for learning from
preferences that explicitly incorporates prior reward knowledge into the
optimization objective. While existing methods such as Direct Preference
Optimization (DPO) and its variants treat preference learning as a Maximum
Likelihood Estimation (MLE) problem, MaPPO extends this paradigm by integrating
prior reward estimates into a principled Maximum a Posteriori (MaP) objective.
This not only generalizes DPO and its variants, but also enhances alignment by
mitigating the oversimplified binary classification of responses. More
importantly, MaPPO introduces no additional hyperparameter, and supports
preference optimization in both offline and online settings. In addition, MaPPO
can be used as a plugin with consistent improvement on DPO variants, including
widely used SimPO, IPO, and CPO. Extensive empirical evaluations of different
model sizes and model series on three standard benchmarks, including MT-Bench,
AlpacaEval 2.0, and Arena-Hard, demonstrate consistent improvements in
alignment performance without sacrificing computational efficiency.