RePO: ReLU-gebaseerde Voorkeursoptimalisatie

Samenvatting

Het afstemmen van grote taalmodellen (LLM's) op menselijke voorkeuren is cruciaal voor implementatie in de praktijk, maar bestaande methoden zoals RLHF kampen met computationele en stabiliteitsuitdagingen. Hoewel DPO een offline paradigma introduceert met één hyperparameter beta, brengen latere methoden zoals SimPO opnieuw complexiteit met zich mee door dubbele parameters (beta, gamma). Wij stellen {ReLU-based Preference Optimization (RePO)} voor, een gestroomlijnd algoritme dat beta elimineert via twee innovaties: (1) het behouden van de referentievrije marges van SimPO, maar het verwijderen van beta door middel van gradientanalyse, en (2) het toepassen van een ReLU-gebaseerd max-margin verlies dat triviaal paren op natuurlijke wijze filtert. Theoretisch wordt RePO gekarakteriseerd als het limietgeval van SimPO (beta naar oneindig), waarbij de logistische weging overgaat in binaire drempelvorming, wat een convex omhulsel van het 0-1 verlies vormt. Empirische resultaten op AlpacaEval 2 en Arena-Hard laten zien dat RePO DPO en SimPO overtreft bij meerdere basismodellen, waarbij slechts één hyperparameter afgestemd hoeft te worden.

English

Aligning large language models (LLMs) with human preferences is critical for real-world deployment, yet existing methods like RLHF face computational and stability challenges. While DPO establishes an offline paradigm with single hyperparameter beta, subsequent methods like SimPO reintroduce complexity through dual parameters (beta, gamma). We propose {ReLU-based Preference Optimization (RePO)}, a streamlined algorithm that eliminates beta via two advances: (1) retaining SimPO's reference-free margins but removing beta through gradient analysis, and (2) adopting a ReLU-based max-margin loss that naturally filters trivial pairs. Theoretically, RePO is characterized as SimPO's limiting case (beta to infty), where the logistic weighting collapses to binary thresholding, forming a convex envelope of the 0-1 loss. Empirical results on AlpacaEval 2 and Arena-Hard show that RePO outperforms DPO and SimPO across multiple base models, requiring only one hyperparameter to tune.

RePO: ReLU-gebaseerde Voorkeursoptimalisatie

RePO: ReLU-based Preference Optimization

Samenvatting

Support