Compreensão das Políticas de Referência na Otimização de Preferência Direta
Understanding Reference Policies in Direct Preference Optimization
July 18, 2024
Autores: Yixin Liu, Pengfei Liu, Arman Cohan
cs.AI
Resumo
A Otimização Direta de Preferência (ODP) tornou-se um método de treinamento amplamente utilizado para o ajuste fino da instrução de grandes modelos de linguagem (GMLs). Neste trabalho, exploramos um aspecto pouco investigado da ODP - sua dependência do modelo ou política de referência. Tais políticas de referência, normalmente instanciadas como o modelo a ser ajustado finamente, são importantes, pois podem impor um limite superior na eficácia da ODP. Portanto, abordamos três questões de pesquisa relacionadas neste trabalho. Primeiramente, exploramos a força ótima da restrição de divergência de Kullback-Leibler na ODP, que penaliza desvios da política de referência, e constatamos que a ODP é sensível a essa força. Em seguida, examinamos a necessidade de políticas de referência para o ajuste fino da instrução, fornecendo comparações teóricas e empíricas entre a ODP e objetivos de aprendizado relacionados, demonstrando a superioridade da ODP. Além disso, investigamos se a ODP se beneficia de políticas de referência mais fortes, constatando que uma política de referência mais forte pode levar a um desempenho aprimorado, mas somente quando é semelhante ao modelo sendo ajustado finamente. Nossas descobertas destacam o papel confuso das políticas de referência na ODP e oferecem insights para as melhores práticas, ao mesmo tempo em que identificam questões de pesquisa em aberto para estudos futuros.
English
Direct Preference Optimization (DPO) has become a widely used training method
for the instruction fine-tuning of large language models (LLMs). In this work,
we explore an under-investigated aspect of DPO - its dependency on the
reference model or policy. Such reference policies, typically instantiated as
the model to be further fine-tuned, are important since they can impose an
upper limit on DPO's effectiveness. Therefore, we address three related
research questions in this work. First, we explore the optimal strength of the
KL-divergence constraint in DPO, which penalizes deviations from the reference
policy, and find that DPO is sensitive to this strength. Next, we examine the
necessity of reference policies for instruction fine-tuning by providing both
theoretical and empirical comparisons between DPO and related learning
objectives, demonstrating DPO's superiority. Additionally, we investigate
whether DPO benefits from stronger reference policies, finding that a stronger
reference policy can lead to improved performance, but only when it is similar
to the model being fine-tuned. Our findings highlight the confounding role of
reference policies in DPO and offer insights for best practices, while also
identifying open research questions for future studies.