Оптимизация устойчивых предпочтений с использованием динамических целевых границ
Robust Preference Optimization via Dynamic Target Margins
June 4, 2025
Авторы: Jie Sun, Junkang Wu, Jiancan Wu, Zhibo Zhu, Xingyu Lu, Jun Zhou, Lintao Ma, Xiang Wang
cs.AI
Аннотация
Выравнивание крупных языковых моделей (LLM) имеет решающее значение для обеспечения их безопасности и надежности в практических приложениях. Оптимизация на основе прямых предпочтений (DPO) стала эффективным методом, который напрямую оптимизирует модели с использованием пар предпочтений, значительно снижая потребность в ресурсах. Однако эффективность DPO во многом зависит от качества данных, которое часто страдает из-за наличия шума. В данной работе мы предлагаем gamma-PO — алгоритм динамической оптимизации предпочтений с изменяемой целевой границей, который регулирует границы вознаграждения на уровне пар. Благодаря введению калибровки границ для каждого конкретного экземпляра, gamma-PO стратегически отдает приоритет парам с высокой уверенностью (демонстрирующим большие границы вознаграждения), одновременно подавляя потенциальный шум от неоднозначных пар. Более того, gamma-PO является методом "подключи и работай", совместимым с вариантами DPO, которые опираются на границу вознаграждения между парами предпочтений. На тестовых наборах, таких как AlpacaEval2 и Arena-Hard, gamma-PO демонстрирует среднее улучшение на 4,4% по сравнению с другими базовыми методами, устанавливая новые стандарты для передовых показателей производительности. Кроме того, gamma-PO требует минимальных изменений в коде и оказывает незначительное влияние на эффективность обучения, что делает его надежным решением для улучшения выравнивания LLM. Наш код доступен по адресу https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.
English
The alignment of Large Language Models (LLMs) is crucial for ensuring their
safety and reliability in practical applications. Direct Preference
Optimization (DPO) has emerged as an efficient method that directly optimizes
models using preference pairs, significantly reducing resource demands.
However, the effectiveness of DPO heavily depends on the data quality, which is
frequently compromised by noise. In this work, we propose gamma-PO, a
dynamic target margin preference optimization algorithm that adjust reward
margins at the pairwise level. By introducing instance-specific margin
calibration, gamma-PO strategically prioritizes high-confidence pairs (those
demonstrating higher reward margins) while suppressing potential noise from
ambiguous pairs. Moreover, gamma-PO is a plug-and-play method, compatible
with variants of DPO that rely on reward margin between preference pairs.
Across benchmarks such as AlpacaEval2 and Arena-Hard, gamma-PO achieves an
average 4.4\% improvement over other baselines, setting new benchmarks for
state-of-the-art performance. Additionally, gamma-PO requires minimal code
changes and has a negligible impact on training efficiency, making it a robust
solution for enhancing LLMs alignment. Our codes are available at
https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.