DPO-Shift: Изменение распределения оптимизации прямых предпочтений
DPO-Shift: Shifting the Distribution of Direct Preference Optimization
February 11, 2025
Авторы: Xiliang Yang, Feng Jiang, Qianen Zhang, Lei Zhao, Xiao Li
cs.AI
Аннотация
Оптимизация Прямых Предпочтений (Direct Preference Optimization, DPO) и ее варианты стали все более популярными для выравнивания языковых моделей с человеческими предпочтениями. Эти методы направлены на обучение моделей лучше различать между выбранными (или предпочтительными) и отклоненными (или непредпочтительными) ответами. Однако предшествующие исследования выявили, что вероятность выбранных ответов часто снижается во время обучения, и это явление известно как смещение вероятности. Для преодоления этого вызова в данной работе мы представляем \method для контролируемого сдвига распределения вероятности выбора. Затем мы показываем, что \method демонстрирует фундаментальный компромисс между улучшением вероятности выбора и жертвованием маржой вознаграждения, что подтверждается как теоретическим анализом, так и экспериментальной проверкой. Более того, мы демонстрируем превосходство \method над DPO на последующих задачах, таких как MT-Bench и специально разработанный эксперимент по выигрышной доле. Мы считаем, что данное исследование показывает, что проблема смещения вероятности DPO может быть эффективно смягчена с помощью простого, теоретически обоснованного решения. Наш код доступен по адресу https://github.com/Meaquadddd/DPO-Shift.
English
Direct Preference Optimization (DPO) and its variants have become
increasingly popular for aligning language models with human preferences. These
methods aim to teach models to better distinguish between chosen (or preferred)
and rejected (or dispreferred) responses. However, prior research has
identified that the probability of chosen responses often decreases during
training, and this phenomenon is known as likelihood displacement. To tackle
this challenge, in this work we introduce \method to controllably shift the
distribution of the chosen probability. Then, we show that \method exhibits a
fundamental trade-off between improving the chosen probability and sacrificing
the reward margin, as supported by both theoretical analysis and experimental
validation. Furthermore, we demonstrate the superiority of \method over DPO on
downstream tasks such as MT-Bench and a designed win rate experiment. We
believe this study shows that the likelihood displacement issue of DPO can be
effectively mitigated with a simple, theoretically grounded solution. Our code
is available at https://github.com/Meaquadddd/DPO-Shift.Summary
AI-Generated Summary