Comprendre les politiques de référence dans l'optimisation des préférences directes
Understanding Reference Policies in Direct Preference Optimization
July 18, 2024
Auteurs: Yixin Liu, Pengfei Liu, Arman Cohan
cs.AI
Résumé
L'Optimisation Directe des Préférences (Direct Preference Optimization, DPO) est devenue une méthode d'entraînement largement utilisée pour le réglage fin des grands modèles de langage (LLMs) sur des instructions. Dans ce travail, nous explorons un aspect peu étudié de la DPO : sa dépendance vis-à-vis du modèle ou de la politique de référence. Ces politiques de référence, généralement instanciées comme le modèle à affiner, sont importantes car elles peuvent imposer une limite supérieure à l'efficacité de la DPO. Par conséquent, nous abordons trois questions de recherche connexes dans ce travail. Tout d'abord, nous explorons la force optimale de la contrainte de divergence KL dans la DPO, qui pénalise les écarts par rapport à la politique de référence, et constatons que la DPO y est sensible. Ensuite, nous examinons la nécessité des politiques de référence pour le réglage fin sur des instructions en fournissant des comparaisons théoriques et empiriques entre la DPO et des objectifs d'apprentissage connexes, démontrant la supériorité de la DPO. De plus, nous investiguons si la DPO bénéficie de politiques de référence plus fortes, constatant qu'une politique de référence plus robuste peut améliorer les performances, mais uniquement lorsqu'elle est similaire au modèle en cours de réglage. Nos résultats mettent en lumière le rôle complexe des politiques de référence dans la DPO et offrent des insights pour les meilleures pratiques, tout en identifiant des questions de recherche ouvertes pour de futures études.
English
Direct Preference Optimization (DPO) has become a widely used training method
for the instruction fine-tuning of large language models (LLMs). In this work,
we explore an under-investigated aspect of DPO - its dependency on the
reference model or policy. Such reference policies, typically instantiated as
the model to be further fine-tuned, are important since they can impose an
upper limit on DPO's effectiveness. Therefore, we address three related
research questions in this work. First, we explore the optimal strength of the
KL-divergence constraint in DPO, which penalizes deviations from the reference
policy, and find that DPO is sensitive to this strength. Next, we examine the
necessity of reference policies for instruction fine-tuning by providing both
theoretical and empirical comparisons between DPO and related learning
objectives, demonstrating DPO's superiority. Additionally, we investigate
whether DPO benefits from stronger reference policies, finding that a stronger
reference policy can lead to improved performance, but only when it is similar
to the model being fine-tuned. Our findings highlight the confounding role of
reference policies in DPO and offer insights for best practices, while also
identifying open research questions for future studies.Summary
AI-Generated Summary