RePO: Оптимизация предпочтений на основе функции ReLU

Аннотация

Согласование больших языковых моделей (LLM) с человеческими предпочтениями имеет критическое значение для их реального применения, однако существующие методы, такие как RLHF, сталкиваются с вычислительными и стабильностными проблемами. В то время как DPO устанавливает оффлайн-парадигму с единственным гиперпараметром beta, последующие методы, такие как SimPO, вновь вводят сложность через два параметра (beta, gamma). Мы предлагаем {ReLU-based Preference Optimization (RePO)}, упрощённый алгоритм, который устраняет beta благодаря двум улучшениям: (1) сохранение безреферентных отступов SimPO, но удаление beta через анализ градиентов, и (2) использование max-margin функции потерь на основе ReLU, которая естественным образом фильтрует тривиальные пары. Теоретически RePO характеризуется как предельный случай SimPO (beta стремится к бесконечности), где логистическое взвешивание сводится к бинарному пороговому значению, формируя выпуклую оболочку 0-1 функции потерь. Эмпирические результаты на AlpacaEval 2 и Arena-Hard показывают, что RePO превосходит DPO и SimPO на нескольких базовых моделях, требуя настройки только одного гиперпараметра.

English

Aligning large language models (LLMs) with human preferences is critical for real-world deployment, yet existing methods like RLHF face computational and stability challenges. While DPO establishes an offline paradigm with single hyperparameter beta, subsequent methods like SimPO reintroduce complexity through dual parameters (beta, gamma). We propose {ReLU-based Preference Optimization (RePO)}, a streamlined algorithm that eliminates beta via two advances: (1) retaining SimPO's reference-free margins but removing beta through gradient analysis, and (2) adopting a ReLU-based max-margin loss that naturally filters trivial pairs. Theoretically, RePO is characterized as SimPO's limiting case (beta to infty), where the logistic weighting collapses to binary thresholding, forming a convex envelope of the 0-1 loss. Empirical results on AlpacaEval 2 and Arena-Hard show that RePO outperforms DPO and SimPO across multiple base models, requiring only one hyperparameter to tune.

RePO: Оптимизация предпочтений на основе функции ReLU

RePO: ReLU-based Preference Optimization

Аннотация

Support