ChatPaper.aiChatPaper

DPO-Shift: Alterando a Distribuição da Otimização de Preferência Direta

DPO-Shift: Shifting the Distribution of Direct Preference Optimization

February 11, 2025
Autores: Xiliang Yang, Feng Jiang, Qianen Zhang, Lei Zhao, Xiao Li
cs.AI

Resumo

A Otimização Direta de Preferência (ODP) e suas variantes tornaram-se cada vez mais populares para alinhar modelos de linguagem com as preferências humanas. Esses métodos têm como objetivo ensinar os modelos a distinguir melhor entre respostas escolhidas (ou preferidas) e rejeitadas (ou não preferidas). No entanto, pesquisas anteriores identificaram que a probabilidade de respostas escolhidas frequentemente diminui durante o treinamento, e esse fenômeno é conhecido como deslocamento de probabilidade. Para enfrentar esse desafio, neste trabalho introduzimos \method para deslocar de forma controlada a distribuição da probabilidade escolhida. Em seguida, demonstramos que \method apresenta um trade-off fundamental entre melhorar a probabilidade escolhida e sacrificar a margem de recompensa, conforme apoiado tanto pela análise teórica quanto pela validação experimental. Além disso, demonstramos a superioridade de \method em relação à ODP em tarefas subsequentes, como MT-Bench e um experimento de taxa de vitória projetado. Acreditamos que este estudo mostra que o problema de deslocamento de probabilidade da ODP pode ser efetivamente mitigado com uma solução simples e fundamentada teoricamente. Nosso código está disponível em https://github.com/Meaquadddd/DPO-Shift.
English
Direct Preference Optimization (DPO) and its variants have become increasingly popular for aligning language models with human preferences. These methods aim to teach models to better distinguish between chosen (or preferred) and rejected (or dispreferred) responses. However, prior research has identified that the probability of chosen responses often decreases during training, and this phenomenon is known as likelihood displacement. To tackle this challenge, in this work we introduce \method to controllably shift the distribution of the chosen probability. Then, we show that \method exhibits a fundamental trade-off between improving the chosen probability and sacrificing the reward margin, as supported by both theoretical analysis and experimental validation. Furthermore, we demonstrate the superiority of \method over DPO on downstream tasks such as MT-Bench and a designed win rate experiment. We believe this study shows that the likelihood displacement issue of DPO can be effectively mitigated with a simple, theoretically grounded solution. Our code is available at https://github.com/Meaquadddd/DPO-Shift.

Summary

AI-Generated Summary

PDF152February 13, 2025