RePO: Otimização de Preferências Baseada em ReLU
RePO: ReLU-based Preference Optimization
March 10, 2025
Autores: Junkang Wu, Kexin Huang, Xue Wang, Jinyang Gao, Bolin Ding, Jiancan Wu, Xiangnan He, Xiang Wang
cs.AI
Resumo
Alinhar grandes modelos de linguagem (LLMs) com as preferências humanas é crucial para a implantação no mundo real, mas métodos existentes como RLHF enfrentam desafios computacionais e de estabilidade. Enquanto o DPO estabelece um paradigma offline com um único hiperparâmetro beta, métodos subsequentes como o SimPO reintroduzem complexidade através de parâmetros duais (beta, gama). Propomos o {Otimização de Preferência Baseada em ReLU (RePO)}, um algoritmo simplificado que elimina o beta por meio de dois avanços: (1) mantendo as margens sem referência do SimPO, mas removendo o beta através de análise de gradiente, e (2) adotando uma função de perda max-margin baseada em ReLU que filtra naturalmente pares triviais. Teoricamente, o RePO é caracterizado como o caso limite do SimPO (beta tendendo ao infinito), onde a ponderação logística colapsa para um limiar binário, formando um envelope convexo da perda 0-1. Resultados empíricos no AlpacaEval 2 e Arena-Hard mostram que o RePO supera o DPO e o SimPO em vários modelos base, exigindo apenas um hiperparâmetro para ajuste.
English
Aligning large language models (LLMs) with human preferences is critical for
real-world deployment, yet existing methods like RLHF face computational and
stability challenges. While DPO establishes an offline paradigm with single
hyperparameter beta, subsequent methods like SimPO reintroduce complexity
through dual parameters (beta, gamma). We propose {ReLU-based Preference
Optimization (RePO)}, a streamlined algorithm that eliminates beta via two
advances: (1) retaining SimPO's reference-free margins but removing beta
through gradient analysis, and (2) adopting a ReLU-based max-margin loss that
naturally filters trivial pairs. Theoretically, RePO is characterized as
SimPO's limiting case (beta to infty), where the logistic weighting
collapses to binary thresholding, forming a convex envelope of the 0-1 loss.
Empirical results on AlpacaEval 2 and Arena-Hard show that RePO outperforms DPO
and SimPO across multiple base models, requiring only one hyperparameter to
tune.Summary
AI-Generated Summary