ChatPaper.aiChatPaper

DPO-Shift: Изменение распределения оптимизации прямых предпочтений

DPO-Shift: Shifting the Distribution of Direct Preference Optimization

February 11, 2025
Авторы: Xiliang Yang, Feng Jiang, Qianen Zhang, Lei Zhao, Xiao Li
cs.AI

Аннотация

Оптимизация Прямых Предпочтений (Direct Preference Optimization, DPO) и ее варианты стали все более популярными для выравнивания языковых моделей с человеческими предпочтениями. Эти методы направлены на обучение моделей лучше различать между выбранными (или предпочтительными) и отклоненными (или непредпочтительными) ответами. Однако предшествующие исследования выявили, что вероятность выбранных ответов часто снижается во время обучения, и это явление известно как смещение вероятности. Для преодоления этого вызова в данной работе мы представляем \method для контролируемого сдвига распределения вероятности выбора. Затем мы показываем, что \method демонстрирует фундаментальный компромисс между улучшением вероятности выбора и жертвованием маржой вознаграждения, что подтверждается как теоретическим анализом, так и экспериментальной проверкой. Более того, мы демонстрируем превосходство \method над DPO на последующих задачах, таких как MT-Bench и специально разработанный эксперимент по выигрышной доле. Мы считаем, что данное исследование показывает, что проблема смещения вероятности DPO может быть эффективно смягчена с помощью простого, теоретически обоснованного решения. Наш код доступен по адресу https://github.com/Meaquadddd/DPO-Shift.
English
Direct Preference Optimization (DPO) and its variants have become increasingly popular for aligning language models with human preferences. These methods aim to teach models to better distinguish between chosen (or preferred) and rejected (or dispreferred) responses. However, prior research has identified that the probability of chosen responses often decreases during training, and this phenomenon is known as likelihood displacement. To tackle this challenge, in this work we introduce \method to controllably shift the distribution of the chosen probability. Then, we show that \method exhibits a fundamental trade-off between improving the chosen probability and sacrificing the reward margin, as supported by both theoretical analysis and experimental validation. Furthermore, we demonstrate the superiority of \method over DPO on downstream tasks such as MT-Bench and a designed win rate experiment. We believe this study shows that the likelihood displacement issue of DPO can be effectively mitigated with a simple, theoretically grounded solution. Our code is available at https://github.com/Meaquadddd/DPO-Shift.

Summary

AI-Generated Summary

PDF152February 13, 2025