Comprendiendo las Políticas de Referencia en la Optimización de Preferencias Directas
Understanding Reference Policies in Direct Preference Optimization
July 18, 2024
Autores: Yixin Liu, Pengfei Liu, Arman Cohan
cs.AI
Resumen
La Optimización Directa de Preferencias (DPO) se ha convertido en un método de entrenamiento ampliamente utilizado para el ajuste fino de instrucciones en modelos de lenguaje grandes (LLMs). En este trabajo, exploramos un aspecto poco investigado de la DPO: su dependencia del modelo de referencia o política. Estas políticas de referencia, generalmente implementadas como el modelo a ajustar finamente, son importantes ya que pueden imponer un límite superior en la efectividad de la DPO. Por lo tanto, abordamos tres preguntas de investigación relacionadas en este trabajo. Primero, exploramos la fuerza óptima de la restricción de divergencia de Kullback-Leibler en la DPO, que penaliza las desviaciones de la política de referencia, y encontramos que la DPO es sensible a esta fuerza. A continuación, examinamos la necesidad de políticas de referencia para el ajuste fino de instrucciones mediante comparaciones teóricas y empíricas entre la DPO y objetivos de aprendizaje relacionados, demostrando la superioridad de la DPO. Además, investigamos si la DPO se beneficia de políticas de referencia más fuertes, encontrando que una política de referencia más fuerte puede llevar a un mejor rendimiento, pero solo cuando es similar al modelo que se está ajustando finamente. Nuestros hallazgos resaltan el papel confuso de las políticas de referencia en la DPO y ofrecen ideas para las mejores prácticas, al mismo tiempo que identifican preguntas de investigación abiertas para estudios futuros.
English
Direct Preference Optimization (DPO) has become a widely used training method
for the instruction fine-tuning of large language models (LLMs). In this work,
we explore an under-investigated aspect of DPO - its dependency on the
reference model or policy. Such reference policies, typically instantiated as
the model to be further fine-tuned, are important since they can impose an
upper limit on DPO's effectiveness. Therefore, we address three related
research questions in this work. First, we explore the optimal strength of the
KL-divergence constraint in DPO, which penalizes deviations from the reference
policy, and find that DPO is sensitive to this strength. Next, we examine the
necessity of reference policies for instruction fine-tuning by providing both
theoretical and empirical comparisons between DPO and related learning
objectives, demonstrating DPO's superiority. Additionally, we investigate
whether DPO benefits from stronger reference policies, finding that a stronger
reference policy can lead to improved performance, but only when it is similar
to the model being fine-tuned. Our findings highlight the confounding role of
reference policies in DPO and offer insights for best practices, while also
identifying open research questions for future studies.