Optimisation Robuste des Préférences via des Marges Cibles Dynamiques
Robust Preference Optimization via Dynamic Target Margins
June 4, 2025
Auteurs: Jie Sun, Junkang Wu, Jiancan Wu, Zhibo Zhu, Xingyu Lu, Jun Zhou, Lintao Ma, Xiang Wang
cs.AI
Résumé
L'alignement des modèles de langage de grande taille (LLMs) est crucial pour garantir leur sécurité et leur fiabilité dans les applications pratiques. L'optimisation directe des préférences (Direct Preference Optimization, DPO) s'est imposée comme une méthode efficace qui optimise directement les modèles à l'aide de paires de préférences, réduisant ainsi considérablement les besoins en ressources. Cependant, l'efficacité de la DPO dépend fortement de la qualité des données, qui est souvent compromise par le bruit. Dans ce travail, nous proposons gamma-PO, un algorithme d'optimisation des préférences à marge cible dynamique qui ajuste les marges de récompense au niveau des paires. En introduisant une calibration de marge spécifique à chaque instance, gamma-PO priorise stratégiquement les paires à haute confiance (celles présentant des marges de récompense plus élevées) tout en supprimant le bruit potentiel des paires ambiguës. De plus, gamma-PO est une méthode plug-and-play, compatible avec les variantes de DPO qui reposent sur la marge de récompense entre les paires de préférences. Sur des benchmarks tels qu'AlpacaEval2 et Arena-Hard, gamma-PO obtient une amélioration moyenne de 4,4 % par rapport aux autres méthodes de référence, établissant ainsi de nouveaux standards pour les performances de pointe. Par ailleurs, gamma-PO nécessite des modifications de code minimales et a un impact négligeable sur l'efficacité de l'entraînement, ce qui en fait une solution robuste pour améliorer l'alignement des LLMs. Nos codes sont disponibles à l'adresse suivante : https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.
English
The alignment of Large Language Models (LLMs) is crucial for ensuring their
safety and reliability in practical applications. Direct Preference
Optimization (DPO) has emerged as an efficient method that directly optimizes
models using preference pairs, significantly reducing resource demands.
However, the effectiveness of DPO heavily depends on the data quality, which is
frequently compromised by noise. In this work, we propose gamma-PO, a
dynamic target margin preference optimization algorithm that adjust reward
margins at the pairwise level. By introducing instance-specific margin
calibration, gamma-PO strategically prioritizes high-confidence pairs (those
demonstrating higher reward margins) while suppressing potential noise from
ambiguous pairs. Moreover, gamma-PO is a plug-and-play method, compatible
with variants of DPO that rely on reward margin between preference pairs.
Across benchmarks such as AlpacaEval2 and Arena-Hard, gamma-PO achieves an
average 4.4\% improvement over other baselines, setting new benchmarks for
state-of-the-art performance. Additionally, gamma-PO requires minimal code
changes and has a negligible impact on training efficiency, making it a robust
solution for enhancing LLMs alignment. Our codes are available at
https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.