Optimización Robusta de Preferencias mediante Márgenes Dinámicos de Referencia
Robust Preference Optimization via Dynamic Target Margins
June 4, 2025
Autores: Jie Sun, Junkang Wu, Jiancan Wu, Zhibo Zhu, Xingyu Lu, Jun Zhou, Lintao Ma, Xiang Wang
cs.AI
Resumen
La alineación de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es crucial para garantizar su seguridad y fiabilidad en aplicaciones prácticas. La Optimización Directa de Preferencias (DPO, por sus siglas en inglés) ha surgido como un método eficiente que optimiza directamente los modelos utilizando pares de preferencias, reduciendo significativamente la demanda de recursos. Sin embargo, la efectividad de DPO depende en gran medida de la calidad de los datos, que con frecuencia se ve comprometida por el ruido. En este trabajo, proponemos gamma-PO, un algoritmo de optimización de preferencias con margen dinámico que ajusta los márgenes de recompensa a nivel de pares. Al introducir una calibración de márgenes específica para cada instancia, gamma-PO prioriza estratégicamente los pares de alta confianza (aquellos que muestran márgenes de recompensa más altos) mientras suprime el ruido potencial de los pares ambiguos. Además, gamma-PO es un método plug-and-play, compatible con variantes de DPO que dependen del margen de recompensa entre pares de preferencias. En benchmarks como AlpacaEval2 y Arena-Hard, gamma-PO logra una mejora promedio del 4.4\% sobre otras líneas base, estableciendo nuevos estándares para el rendimiento de última generación. Adicionalmente, gamma-PO requiere cambios mínimos en el código y tiene un impacto insignificante en la eficiencia del entrenamiento, convirtiéndolo en una solución robusta para mejorar la alineación de los LLMs. Nuestros códigos están disponibles en https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.
English
The alignment of Large Language Models (LLMs) is crucial for ensuring their
safety and reliability in practical applications. Direct Preference
Optimization (DPO) has emerged as an efficient method that directly optimizes
models using preference pairs, significantly reducing resource demands.
However, the effectiveness of DPO heavily depends on the data quality, which is
frequently compromised by noise. In this work, we propose gamma-PO, a
dynamic target margin preference optimization algorithm that adjust reward
margins at the pairwise level. By introducing instance-specific margin
calibration, gamma-PO strategically prioritizes high-confidence pairs (those
demonstrating higher reward margins) while suppressing potential noise from
ambiguous pairs. Moreover, gamma-PO is a plug-and-play method, compatible
with variants of DPO that rely on reward margin between preference pairs.
Across benchmarks such as AlpacaEval2 and Arena-Hard, gamma-PO achieves an
average 4.4\% improvement over other baselines, setting new benchmarks for
state-of-the-art performance. Additionally, gamma-PO requires minimal code
changes and has a negligible impact on training efficiency, making it a robust
solution for enhancing LLMs alignment. Our codes are available at
https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.