ChatPaper.aiChatPaper

動的ターゲットマージンによるロバストな選好最適化

Robust Preference Optimization via Dynamic Target Margins

June 4, 2025
著者: Jie Sun, Junkang Wu, Jiancan Wu, Zhibo Zhu, Xingyu Lu, Jun Zhou, Lintao Ma, Xiang Wang
cs.AI

要旨

大規模言語モデル(LLMs)のアライメントは、実用上の安全性と信頼性を確保するために極めて重要です。Direct Preference Optimization(DPO)は、選好ペアを直接利用してモデルを最適化する効率的な手法として登場し、リソース要求を大幅に削減します。しかし、DPOの有効性はデータ品質に大きく依存し、ノイズによってしばしば損なわれます。本研究では、ペアワイズレベルで報酬マージンを調整する動的ターゲットマージン選好最適化アルゴリズムであるgamma-POを提案します。インスタンス固有のマージンキャリブレーションを導入することで、gamma-POは高信頼度ペア(より高い報酬マージンを示すペア)を戦略的に優先し、曖昧なペアからの潜在的なノイズを抑制します。さらに、gamma-POはプラグアンドプレイ方式であり、選好ペア間の報酬マージンに依存するDPOのバリエーションと互換性があります。AlpacaEval2やArena-Hardなどのベンチマークにおいて、gamma-POは他のベースラインと比較して平均4.4%の改善を達成し、最新の性能基準を新たに設定しました。加えて、gamma-POは最小限のコード変更で済み、トレーニング効率にほとんど影響を与えないため、LLMのアライメントを強化する堅牢なソリューションとなっています。私たちのコードはhttps://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}で公開されています。
English
The alignment of Large Language Models (LLMs) is crucial for ensuring their safety and reliability in practical applications. Direct Preference Optimization (DPO) has emerged as an efficient method that directly optimizes models using preference pairs, significantly reducing resource demands. However, the effectiveness of DPO heavily depends on the data quality, which is frequently compromised by noise. In this work, we propose gamma-PO, a dynamic target margin preference optimization algorithm that adjust reward margins at the pairwise level. By introducing instance-specific margin calibration, gamma-PO strategically prioritizes high-confidence pairs (those demonstrating higher reward margins) while suppressing potential noise from ambiguous pairs. Moreover, gamma-PO is a plug-and-play method, compatible with variants of DPO that rely on reward margin between preference pairs. Across benchmarks such as AlpacaEval2 and Arena-Hard, gamma-PO achieves an average 4.4\% improvement over other baselines, setting new benchmarks for state-of-the-art performance. Additionally, gamma-PO requires minimal code changes and has a negligible impact on training efficiency, making it a robust solution for enhancing LLMs alignment. Our codes are available at https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.
PDF22June 10, 2025