RePO: Optimización de Preferencias basada en ReLU

Resumen

Alinear los modelos de lenguaje de gran escala (LLMs) con las preferencias humanas es crucial para su implementación en el mundo real, aunque métodos existentes como RLHF enfrentan desafíos computacionales y de estabilidad. Mientras que DPO establece un paradigma offline con un único hiperparámetro beta, métodos posteriores como SimPO reintroducen complejidad mediante parámetros duales (beta, gamma). Proponemos {Optimización de Preferencias basada en ReLU (RePO)}, un algoritmo simplificado que elimina beta mediante dos avances: (1) conservar los márgenes sin referencia de SimPO pero eliminar beta mediante análisis de gradientes, y (2) adoptar una función de pérdida de margen máximo basada en ReLU que filtra naturalmente pares triviales. Teóricamente, RePO se caracteriza como el caso límite de SimPO (beta tiende a infinito), donde la ponderación logística colapsa en un umbral binario, formando una envolvente convexa de la pérdida 0-1. Los resultados empíricos en AlpacaEval 2 y Arena-Hard muestran que RePO supera a DPO y SimPO en múltiples modelos base, requiriendo solo un hiperparámetro para ajustar.

English

Aligning large language models (LLMs) with human preferences is critical for real-world deployment, yet existing methods like RLHF face computational and stability challenges. While DPO establishes an offline paradigm with single hyperparameter beta, subsequent methods like SimPO reintroduce complexity through dual parameters (beta, gamma). We propose {ReLU-based Preference Optimization (RePO)}, a streamlined algorithm that eliminates beta via two advances: (1) retaining SimPO's reference-free margins but removing beta through gradient analysis, and (2) adopting a ReLU-based max-margin loss that naturally filters trivial pairs. Theoretically, RePO is characterized as SimPO's limiting case (beta to infty), where the logistic weighting collapses to binary thresholding, forming a convex envelope of the 0-1 loss. Empirical results on AlpacaEval 2 and Arena-Hard show that RePO outperforms DPO and SimPO across multiple base models, requiring only one hyperparameter to tune.

RePO: Optimización de Preferencias basada en ReLU

RePO: ReLU-based Preference Optimization

Resumen

Support