RePO: ReLU-gebaseerde Voorkeursoptimalisatie
RePO: ReLU-based Preference Optimization
March 10, 2025
Auteurs: Junkang Wu, Kexin Huang, Xue Wang, Jinyang Gao, Bolin Ding, Jiancan Wu, Xiangnan He, Xiang Wang
cs.AI
Samenvatting
Het afstemmen van grote taalmodellen (LLM's) op menselijke voorkeuren is cruciaal voor implementatie in de praktijk, maar bestaande methoden zoals RLHF kampen met computationele en stabiliteitsuitdagingen. Hoewel DPO een offline paradigma introduceert met één hyperparameter beta, brengen latere methoden zoals SimPO opnieuw complexiteit met zich mee door dubbele parameters (beta, gamma). Wij stellen {ReLU-based Preference Optimization (RePO)} voor, een gestroomlijnd algoritme dat beta elimineert via twee innovaties: (1) het behouden van de referentievrije marges van SimPO, maar het verwijderen van beta door middel van gradientanalyse, en (2) het toepassen van een ReLU-gebaseerd max-margin verlies dat triviaal paren op natuurlijke wijze filtert. Theoretisch wordt RePO gekarakteriseerd als het limietgeval van SimPO (beta naar oneindig), waarbij de logistische weging overgaat in binaire drempelvorming, wat een convex omhulsel van het 0-1 verlies vormt. Empirische resultaten op AlpacaEval 2 en Arena-Hard laten zien dat RePO DPO en SimPO overtreft bij meerdere basismodellen, waarbij slechts één hyperparameter afgestemd hoeft te worden.
English
Aligning large language models (LLMs) with human preferences is critical for
real-world deployment, yet existing methods like RLHF face computational and
stability challenges. While DPO establishes an offline paradigm with single
hyperparameter beta, subsequent methods like SimPO reintroduce complexity
through dual parameters (beta, gamma). We propose {ReLU-based Preference
Optimization (RePO)}, a streamlined algorithm that eliminates beta via two
advances: (1) retaining SimPO's reference-free margins but removing beta
through gradient analysis, and (2) adopting a ReLU-based max-margin loss that
naturally filters trivial pairs. Theoretically, RePO is characterized as
SimPO's limiting case (beta to infty), where the logistic weighting
collapses to binary thresholding, forming a convex envelope of the 0-1 loss.
Empirical results on AlpacaEval 2 and Arena-Hard show that RePO outperforms DPO
and SimPO across multiple base models, requiring only one hyperparameter to
tune.Summary
AI-Generated Summary