RePO: Ottimizzazione delle Preferenze basata su ReLU
RePO: ReLU-based Preference Optimization
March 10, 2025
Autori: Junkang Wu, Kexin Huang, Xue Wang, Jinyang Gao, Bolin Ding, Jiancan Wu, Xiangnan He, Xiang Wang
cs.AI
Abstract
Allineare i grandi modelli linguistici (LLM) con le preferenze umane è fondamentale per il dispiegamento nel mondo reale, tuttavia i metodi esistenti come RLHF affrontano sfide computazionali e di stabilità. Mentre DPO stabilisce un paradigma offline con un singolo iperparametro beta, i metodi successivi come SimPO reintroducono complessità attraverso parametri duali (beta, gamma). Proponiamo {ReLU-based Preference Optimization (RePO)}, un algoritmo semplificato che elimina beta attraverso due progressi: (1) mantenere i margini senza riferimento di SimPO ma rimuovere beta tramite analisi del gradiente, e (2) adottare una funzione di perdita max-margin basata su ReLU che filtra naturalmente le coppie banali. Teoricamente, RePO è caratterizzato come caso limite di SimPO (beta tendente a infinito), dove la ponderazione logistica collassa in una soglia binaria, formando un inviluppo convesso della perdita 0-1. I risultati empirici su AlpacaEval 2 e Arena-Hard dimostrano che RePO supera DPO e SimPO su più modelli di base, richiedendo solo un iperparametro da ottimizzare.
English
Aligning large language models (LLMs) with human preferences is critical for
real-world deployment, yet existing methods like RLHF face computational and
stability challenges. While DPO establishes an offline paradigm with single
hyperparameter beta, subsequent methods like SimPO reintroduce complexity
through dual parameters (beta, gamma). We propose {ReLU-based Preference
Optimization (RePO)}, a streamlined algorithm that eliminates beta via two
advances: (1) retaining SimPO's reference-free margins but removing beta
through gradient analysis, and (2) adopting a ReLU-based max-margin loss that
naturally filters trivial pairs. Theoretically, RePO is characterized as
SimPO's limiting case (beta to infty), where the logistic weighting
collapses to binary thresholding, forming a convex envelope of the 0-1 loss.
Empirical results on AlpacaEval 2 and Arena-Hard show that RePO outperforms DPO
and SimPO across multiple base models, requiring only one hyperparameter to
tune.Summary
AI-Generated Summary