Robuuste Voorkeursoptimalisatie via Dynamische Doelmarges
Robust Preference Optimization via Dynamic Target Margins
June 4, 2025
Auteurs: Jie Sun, Junkang Wu, Jiancan Wu, Zhibo Zhu, Xingyu Lu, Jun Zhou, Lintao Ma, Xiang Wang
cs.AI
Samenvatting
De afstemming van Large Language Models (LLMs) is cruciaal om hun veiligheid en betrouwbaarheid in praktische toepassingen te waarborgen. Direct Preference Optimization (DPO) is naar voren gekomen als een efficiënte methode die modellen direct optimaliseert met behulp van voorkeursparen, waardoor de vraag naar middelen aanzienlijk wordt verminderd. De effectiviteit van DPO hangt echter sterk af van de kwaliteit van de data, die vaak wordt aangetast door ruis. In dit werk stellen we gamma-PO voor, een dynamisch target margin preference optimization-algoritme dat beloningsmarges op paarsgewijze niveau aanpast. Door het introduceren van instance-specifieke margekalibratie, geeft gamma-PO strategisch prioriteit aan paren met een hoge betrouwbaarheid (die hogere beloningsmarges demonstreren) terwijl potentiële ruis van ambigue paren wordt onderdrukt. Bovendien is gamma-PO een plug-and-play methode, compatibel met varianten van DPO die vertrouwen op de beloningsmarge tussen voorkeursparen. Op benchmarks zoals AlpacaEval2 en Arena-Hard behaalt gamma-PO een gemiddelde verbetering van 4,4% ten opzichte van andere baseline-methoden, wat nieuwe standaarden zet voor state-of-the-art prestaties. Daarnaast vereist gamma-PO minimale code-aanpassingen en heeft het een verwaarloosbare impact op de trainings efficiëntie, waardoor het een robuuste oplossing is voor het verbeteren van de afstemming van LLMs. Onze code is beschikbaar op https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.
English
The alignment of Large Language Models (LLMs) is crucial for ensuring their
safety and reliability in practical applications. Direct Preference
Optimization (DPO) has emerged as an efficient method that directly optimizes
models using preference pairs, significantly reducing resource demands.
However, the effectiveness of DPO heavily depends on the data quality, which is
frequently compromised by noise. In this work, we propose gamma-PO, a
dynamic target margin preference optimization algorithm that adjust reward
margins at the pairwise level. By introducing instance-specific margin
calibration, gamma-PO strategically prioritizes high-confidence pairs (those
demonstrating higher reward margins) while suppressing potential noise from
ambiguous pairs. Moreover, gamma-PO is a plug-and-play method, compatible
with variants of DPO that rely on reward margin between preference pairs.
Across benchmarks such as AlpacaEval2 and Arena-Hard, gamma-PO achieves an
average 4.4\% improvement over other baselines, setting new benchmarks for
state-of-the-art performance. Additionally, gamma-PO requires minimal code
changes and has a negligible impact on training efficiency, making it a robust
solution for enhancing LLMs alignment. Our codes are available at
https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.