MaPPO: Optimización de Preferencias de Máxima a Posteriori con Conocimiento Previo
MaPPO: Maximum a Posteriori Preference Optimization with Prior Knowledge
July 27, 2025
Autores: Guangchen Lan, Sipeng Zhang, Tianle Wang, Yuwei Zhang, Daoan Zhang, Xinpeng Wei, Xiaoman Pan, Hongming Zhang, Dong-Jun Han, Christopher G. Brinton
cs.AI
Resumen
A medida que se despliega la era de los modelos de lenguaje de gran escala (LLMs) en nombre de los usuarios, los métodos de Optimización de Preferencias (PO) se han convertido en un enfoque central para alinear los LLMs con las preferencias humanas y mejorar su rendimiento. Proponemos la Optimización de Preferencias de Máxima a Posteriori (MaPPO), un marco para aprender de las preferencias que incorpora explícitamente conocimiento previo sobre recompensas en el objetivo de optimización. Mientras que métodos existentes como la Optimización Directa de Preferencias (DPO) y sus variantes tratan el aprendizaje de preferencias como un problema de Estimación de Máxima Verosimilitud (MLE), MaPPO extiende este paradigma al integrar estimaciones previas de recompensas en un objetivo de Máxima a Posteriori (MaP) fundamentado. Esto no solo generaliza DPO y sus variantes, sino que también mejora la alineación al mitigar la clasificación binaria simplificada de respuestas. Más importante aún, MaPPO no introduce hiperparámetros adicionales y admite la optimización de preferencias tanto en entornos fuera de línea como en línea. Además, MaPPO puede utilizarse como un complemento con mejoras consistentes en las variantes de DPO, incluyendo las ampliamente utilizadas SimPO, IPO y CPO. Evaluaciones empíricas exhaustivas de diferentes tamaños de modelos y series de modelos en tres puntos de referencia estándar, incluyendo MT-Bench, AlpacaEval 2.0 y Arena-Hard, demuestran mejoras consistentes en el rendimiento de alineación sin sacrificar la eficiencia computacional.
English
As the era of large language models (LLMs) on behalf of users unfolds,
Preference Optimization (PO) methods have become a central approach to aligning
LLMs with human preferences and improving performance. We propose Maximum a
Posteriori Preference Optimization (MaPPO), a framework for learning from
preferences that explicitly incorporates prior reward knowledge into the
optimization objective. While existing methods such as Direct Preference
Optimization (DPO) and its variants treat preference learning as a Maximum
Likelihood Estimation (MLE) problem, MaPPO extends this paradigm by integrating
prior reward estimates into a principled Maximum a Posteriori (MaP) objective.
This not only generalizes DPO and its variants, but also enhances alignment by
mitigating the oversimplified binary classification of responses. More
importantly, MaPPO introduces no additional hyperparameter, and supports
preference optimization in both offline and online settings. In addition, MaPPO
can be used as a plugin with consistent improvement on DPO variants, including
widely used SimPO, IPO, and CPO. Extensive empirical evaluations of different
model sizes and model series on three standard benchmarks, including MT-Bench,
AlpacaEval 2.0, and Arena-Hard, demonstrate consistent improvements in
alignment performance without sacrificing computational efficiency.