MaPPO: Оптимизация максимальной апостериорной вероятности предпочтений с использованием априорных знаний
MaPPO: Maximum a Posteriori Preference Optimization with Prior Knowledge
July 27, 2025
Авторы: Guangchen Lan, Sipeng Zhang, Tianle Wang, Yuwei Zhang, Daoan Zhang, Xinpeng Wei, Xiaoman Pan, Hongming Zhang, Dong-Jun Han, Christopher G. Brinton
cs.AI
Аннотация
С наступлением эры крупных языковых моделей (LLM), работающих от имени пользователей, методы оптимизации предпочтений (Preference Optimization, PO) стали ключевым подходом для согласования LLM с человеческими предпочтениями и повышения их производительности. Мы предлагаем метод Maximum a Posteriori Preference Optimization (MaPPO) — фреймворк для обучения на основе предпочтений, который явно включает априорные знания о наградах в целевую функцию оптимизации. В то время как существующие методы, такие как Direct Preference Optimization (DPO) и его варианты, рассматривают обучение предпочтениям как задачу максимального правдоподобия (Maximum Likelihood Estimation, MLE), MaPPO расширяет эту парадигму, интегрируя априорные оценки наград в обоснованную целевую функцию Maximum a Posteriori (MaP). Это не только обобщает DPO и его варианты, но и улучшает согласование, смягчая упрощённую бинарную классификацию ответов. Более того, MaPPO не вводит дополнительных гиперпараметров и поддерживает оптимизацию предпочтений как в оффлайн-, так и в онлайн-режимах. Кроме того, MaPPO может использоваться как плагин, обеспечивая стабильное улучшение для вариантов DPO, включая широко используемые SimPO, IPO и CPO. Обширные эмпирические оценки для моделей различных размеров и серий на трёх стандартных бенчмарках — MT-Bench, AlpacaEval 2.0 и Arena-Hard — демонстрируют устойчивое улучшение качества согласования без ущерба для вычислительной эффективности.
English
As the era of large language models (LLMs) on behalf of users unfolds,
Preference Optimization (PO) methods have become a central approach to aligning
LLMs with human preferences and improving performance. We propose Maximum a
Posteriori Preference Optimization (MaPPO), a framework for learning from
preferences that explicitly incorporates prior reward knowledge into the
optimization objective. While existing methods such as Direct Preference
Optimization (DPO) and its variants treat preference learning as a Maximum
Likelihood Estimation (MLE) problem, MaPPO extends this paradigm by integrating
prior reward estimates into a principled Maximum a Posteriori (MaP) objective.
This not only generalizes DPO and its variants, but also enhances alignment by
mitigating the oversimplified binary classification of responses. More
importantly, MaPPO introduces no additional hyperparameter, and supports
preference optimization in both offline and online settings. In addition, MaPPO
can be used as a plugin with consistent improvement on DPO variants, including
widely used SimPO, IPO, and CPO. Extensive empirical evaluations of different
model sizes and model series on three standard benchmarks, including MT-Bench,
AlpacaEval 2.0, and Arena-Hard, demonstrate consistent improvements in
alignment performance without sacrificing computational efficiency.