RePO : Optimisation des préférences basée sur ReLU
RePO: ReLU-based Preference Optimization
March 10, 2025
Auteurs: Junkang Wu, Kexin Huang, Xue Wang, Jinyang Gao, Bolin Ding, Jiancan Wu, Xiangnan He, Xiang Wang
cs.AI
Résumé
L'alignement des grands modèles de langage (LLMs) avec les préférences humaines est crucial pour leur déploiement en conditions réelles, mais les méthodes existantes comme le RLHF rencontrent des défis de calcul et de stabilité. Alors que le DPO établit un paradigme hors ligne avec un seul hyperparamètre beta, les méthodes ultérieures comme le SimPO réintroduisent de la complexité via des paramètres doubles (beta, gamma). Nous proposons l'Optimisation des Préférences basée sur ReLU (RePO), un algorithme simplifié qui élimine beta grâce à deux avancées : (1) la conservation des marges sans référence du SimPO mais la suppression de beta via une analyse de gradient, et (2) l'adoption d'une fonction de perte à marge maximale basée sur ReLU qui filtre naturellement les paires triviales. Théoriquement, RePO est caractérisé comme le cas limite du SimPO (beta tendant vers l'infini), où la pondération logistique se réduit à un seuillage binaire, formant une enveloppe convexe de la perte 0-1. Les résultats empiriques sur AlpacaEval 2 et Arena-Hard montrent que RePO surpasse le DPO et le SimPO sur plusieurs modèles de base, nécessitant seulement un hyperparamètre à ajuster.
English
Aligning large language models (LLMs) with human preferences is critical for
real-world deployment, yet existing methods like RLHF face computational and
stability challenges. While DPO establishes an offline paradigm with single
hyperparameter beta, subsequent methods like SimPO reintroduce complexity
through dual parameters (beta, gamma). We propose {ReLU-based Preference
Optimization (RePO)}, a streamlined algorithm that eliminates beta via two
advances: (1) retaining SimPO's reference-free margins but removing beta
through gradient analysis, and (2) adopting a ReLU-based max-margin loss that
naturally filters trivial pairs. Theoretically, RePO is characterized as
SimPO's limiting case (beta to infty), where the logistic weighting
collapses to binary thresholding, forming a convex envelope of the 0-1 loss.
Empirical results on AlpacaEval 2 and Arena-Hard show that RePO outperforms DPO
and SimPO across multiple base models, requiring only one hyperparameter to
tune.Summary
AI-Generated Summary