Optimisation Robuste des Préférences via des Marges Cibles Dynamiques

papers.abstract

L'alignement des modèles de langage de grande taille (LLMs) est crucial pour garantir leur sécurité et leur fiabilité dans les applications pratiques. L'optimisation directe des préférences (Direct Preference Optimization, DPO) s'est imposée comme une méthode efficace qui optimise directement les modèles à l'aide de paires de préférences, réduisant ainsi considérablement les besoins en ressources. Cependant, l'efficacité de la DPO dépend fortement de la qualité des données, qui est souvent compromise par le bruit. Dans ce travail, nous proposons gamma-PO, un algorithme d'optimisation des préférences à marge cible dynamique qui ajuste les marges de récompense au niveau des paires. En introduisant une calibration de marge spécifique à chaque instance, gamma-PO priorise stratégiquement les paires à haute confiance (celles présentant des marges de récompense plus élevées) tout en supprimant le bruit potentiel des paires ambiguës. De plus, gamma-PO est une méthode plug-and-play, compatible avec les variantes de DPO qui reposent sur la marge de récompense entre les paires de préférences. Sur des benchmarks tels qu'AlpacaEval2 et Arena-Hard, gamma-PO obtient une amélioration moyenne de 4,4 % par rapport aux autres méthodes de référence, établissant ainsi de nouveaux standards pour les performances de pointe. Par ailleurs, gamma-PO nécessite des modifications de code minimales et a un impact négligeable sur l'efficacité de l'entraînement, ce qui en fait une solution robuste pour améliorer l'alignement des LLMs. Nos codes sont disponibles à l'adresse suivante : https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.

English

The alignment of Large Language Models (LLMs) is crucial for ensuring their safety and reliability in practical applications. Direct Preference Optimization (DPO) has emerged as an efficient method that directly optimizes models using preference pairs, significantly reducing resource demands. However, the effectiveness of DPO heavily depends on the data quality, which is frequently compromised by noise. In this work, we propose gamma-PO, a dynamic target margin preference optimization algorithm that adjust reward margins at the pairwise level. By introducing instance-specific margin calibration, gamma-PO strategically prioritizes high-confidence pairs (those demonstrating higher reward margins) while suppressing potential noise from ambiguous pairs. Moreover, gamma-PO is a plug-and-play method, compatible with variants of DPO that rely on reward margin between preference pairs. Across benchmarks such as AlpacaEval2 and Arena-Hard, gamma-PO achieves an average 4.4\% improvement over other baselines, setting new benchmarks for state-of-the-art performance. Additionally, gamma-PO requires minimal code changes and has a negligible impact on training efficiency, making it a robust solution for enhancing LLMs alignment. Our codes are available at https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.

Optimisation Robuste des Préférences via des Marges Cibles Dynamiques

Robust Preference Optimization via Dynamic Target Margins

papers.abstract

Support