RePO: Ottimizzazione delle Preferenze basata su ReLU

Abstract

Allineare i grandi modelli linguistici (LLM) con le preferenze umane è fondamentale per il dispiegamento nel mondo reale, tuttavia i metodi esistenti come RLHF affrontano sfide computazionali e di stabilità. Mentre DPO stabilisce un paradigma offline con un singolo iperparametro beta, i metodi successivi come SimPO reintroducono complessità attraverso parametri duali (beta, gamma). Proponiamo {ReLU-based Preference Optimization (RePO)}, un algoritmo semplificato che elimina beta attraverso due progressi: (1) mantenere i margini senza riferimento di SimPO ma rimuovere beta tramite analisi del gradiente, e (2) adottare una funzione di perdita max-margin basata su ReLU che filtra naturalmente le coppie banali. Teoricamente, RePO è caratterizzato come caso limite di SimPO (beta tendente a infinito), dove la ponderazione logistica collassa in una soglia binaria, formando un inviluppo convesso della perdita 0-1. I risultati empirici su AlpacaEval 2 e Arena-Hard dimostrano che RePO supera DPO e SimPO su più modelli di base, richiedendo solo un iperparametro da ottimizzare.

English

Aligning large language models (LLMs) with human preferences is critical for real-world deployment, yet existing methods like RLHF face computational and stability challenges. While DPO establishes an offline paradigm with single hyperparameter beta, subsequent methods like SimPO reintroduce complexity through dual parameters (beta, gamma). We propose {ReLU-based Preference Optimization (RePO)}, a streamlined algorithm that eliminates beta via two advances: (1) retaining SimPO's reference-free margins but removing beta through gradient analysis, and (2) adopting a ReLU-based max-margin loss that naturally filters trivial pairs. Theoretically, RePO is characterized as SimPO's limiting case (beta to infty), where the logistic weighting collapses to binary thresholding, forming a convex envelope of the 0-1 loss. Empirical results on AlpacaEval 2 and Arena-Hard show that RePO outperforms DPO and SimPO across multiple base models, requiring only one hyperparameter to tune.

RePO: Ottimizzazione delle Preferenze basata su ReLU

RePO: ReLU-based Preference Optimization

Abstract

Support