Robuste Präferenzoptimierung durch dynamische Zielmargen

papers.abstract

Die Ausrichtung von Large Language Models (LLMs) ist entscheidend, um deren Sicherheit und Zuverlässigkeit in praktischen Anwendungen zu gewährleisten. Direct Preference Optimization (DPO) hat sich als effiziente Methode etabliert, die Modelle direkt mithilfe von Präferenzpaaren optimiert und dabei den Ressourcenbedarf erheblich reduziert. Die Wirksamkeit von DPO hängt jedoch stark von der Datenqualität ab, die häufig durch Rauschen beeinträchtigt wird. In dieser Arbeit stellen wir gamma-PO vor, einen dynamischen Zielmargen-Präferenzoptimierungsalgorithmus, der die Belohnungsmargen auf Paarebene anpasst. Durch die Einführung einer instanzspezifischen Margenkalibrierung priorisiert gamma-PO strategisch hochvertrauenswürdige Paare (solche mit höheren Belohnungsmargen) und unterdrückt gleichzeitig potenzielles Rauschen aus mehrdeutigen Paaren. Darüber hinaus ist gamma-PO eine Plug-and-Play-Methode, die mit Varianten von DPO kompatibel ist, die auf Belohnungsmargen zwischen Präferenzpaaren basieren. In Benchmarks wie AlpacaEval2 und Arena-Hard erzielt gamma-PO eine durchschnittliche Verbesserung von 4,4 % gegenüber anderen Baselines und setzt damit neue Maßstäbe für die Spitzenleistung. Zudem erfordert gamma-PO minimale Codeänderungen und hat einen vernachlässigbaren Einfluss auf die Trainingseffizienz, was es zu einer robusten Lösung für die Verbesserung der Ausrichtung von LLMs macht. Unsere Codes sind unter https://github.com/sunjie279/gammaPO verfügbar.

English

The alignment of Large Language Models (LLMs) is crucial for ensuring their safety and reliability in practical applications. Direct Preference Optimization (DPO) has emerged as an efficient method that directly optimizes models using preference pairs, significantly reducing resource demands. However, the effectiveness of DPO heavily depends on the data quality, which is frequently compromised by noise. In this work, we propose gamma-PO, a dynamic target margin preference optimization algorithm that adjust reward margins at the pairwise level. By introducing instance-specific margin calibration, gamma-PO strategically prioritizes high-confidence pairs (those demonstrating higher reward margins) while suppressing potential noise from ambiguous pairs. Moreover, gamma-PO is a plug-and-play method, compatible with variants of DPO that rely on reward margin between preference pairs. Across benchmarks such as AlpacaEval2 and Arena-Hard, gamma-PO achieves an average 4.4\% improvement over other baselines, setting new benchmarks for state-of-the-art performance. Additionally, gamma-PO requires minimal code changes and has a negligible impact on training efficiency, making it a robust solution for enhancing LLMs alignment. Our codes are available at https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.

Robuste Präferenzoptimierung durch dynamische Zielmargen

Robust Preference Optimization via Dynamic Target Margins

papers.abstract

Support