MaPPO: Otimização de Preferência Máxima a Posteriori com Conhecimento Prévio
MaPPO: Maximum a Posteriori Preference Optimization with Prior Knowledge
July 27, 2025
Autores: Guangchen Lan, Sipeng Zhang, Tianle Wang, Yuwei Zhang, Daoan Zhang, Xinpeng Wei, Xiaoman Pan, Hongming Zhang, Dong-Jun Han, Christopher G. Brinton
cs.AI
Resumo
À medida que a era dos grandes modelos de linguagem (LLMs) em nome dos usuários se desdobra, os métodos de Otimização de Preferências (PO) tornaram-se uma abordagem central para alinhar LLMs com as preferências humanas e melhorar o desempenho. Propomos a Otimização de Preferências de Máxima a Posteriori (MaPPO), uma estrutura para aprender a partir de preferências que incorpora explicitamente o conhecimento prévio de recompensa no objetivo de otimização. Enquanto métodos existentes, como a Otimização Direta de Preferências (DPO) e suas variantes, tratam o aprendizado de preferências como um problema de Estimativa de Máxima Verossimilhança (MLE), o MaPPO estende esse paradigma ao integrar estimativas prévias de recompensa em um objetivo de Máxima a Posteriori (MaP) fundamentado. Isso não apenas generaliza a DPO e suas variantes, mas também aprimora o alinhamento ao mitigar a classificação binária simplificada de respostas. Mais importante, o MaPPO não introduz hiperparâmetros adicionais e suporta a otimização de preferências tanto em cenários offline quanto online. Além disso, o MaPPO pode ser usado como um plugin com melhoria consistente em variantes da DPO, incluindo SimPO, IPO e CPO, amplamente utilizados. Avaliações empíricas extensas de diferentes tamanhos de modelos e séries de modelos em três benchmarks padrão, incluindo MT-Bench, AlpacaEval 2.0 e Arena-Hard, demonstram melhorias consistentes no desempenho de alinhamento sem sacrificar a eficiência computacional.
English
As the era of large language models (LLMs) on behalf of users unfolds,
Preference Optimization (PO) methods have become a central approach to aligning
LLMs with human preferences and improving performance. We propose Maximum a
Posteriori Preference Optimization (MaPPO), a framework for learning from
preferences that explicitly incorporates prior reward knowledge into the
optimization objective. While existing methods such as Direct Preference
Optimization (DPO) and its variants treat preference learning as a Maximum
Likelihood Estimation (MLE) problem, MaPPO extends this paradigm by integrating
prior reward estimates into a principled Maximum a Posteriori (MaP) objective.
This not only generalizes DPO and its variants, but also enhances alignment by
mitigating the oversimplified binary classification of responses. More
importantly, MaPPO introduces no additional hyperparameter, and supports
preference optimization in both offline and online settings. In addition, MaPPO
can be used as a plugin with consistent improvement on DPO variants, including
widely used SimPO, IPO, and CPO. Extensive empirical evaluations of different
model sizes and model series on three standard benchmarks, including MT-Bench,
AlpacaEval 2.0, and Arena-Hard, demonstrate consistent improvements in
alignment performance without sacrificing computational efficiency.