Comprendre les politiques de référence dans l'optimisation des préférences directes

Résumé

L'Optimisation Directe des Préférences (Direct Preference Optimization, DPO) est devenue une méthode d'entraînement largement utilisée pour le réglage fin des grands modèles de langage (LLMs) sur des instructions. Dans ce travail, nous explorons un aspect peu étudié de la DPO : sa dépendance vis-à-vis du modèle ou de la politique de référence. Ces politiques de référence, généralement instanciées comme le modèle à affiner, sont importantes car elles peuvent imposer une limite supérieure à l'efficacité de la DPO. Par conséquent, nous abordons trois questions de recherche connexes dans ce travail. Tout d'abord, nous explorons la force optimale de la contrainte de divergence KL dans la DPO, qui pénalise les écarts par rapport à la politique de référence, et constatons que la DPO y est sensible. Ensuite, nous examinons la nécessité des politiques de référence pour le réglage fin sur des instructions en fournissant des comparaisons théoriques et empiriques entre la DPO et des objectifs d'apprentissage connexes, démontrant la supériorité de la DPO. De plus, nous investiguons si la DPO bénéficie de politiques de référence plus fortes, constatant qu'une politique de référence plus robuste peut améliorer les performances, mais uniquement lorsqu'elle est similaire au modèle en cours de réglage. Nos résultats mettent en lumière le rôle complexe des politiques de référence dans la DPO et offrent des insights pour les meilleures pratiques, tout en identifiant des questions de recherche ouvertes pour de futures études.

English

Direct Preference Optimization (DPO) has become a widely used training method for the instruction fine-tuning of large language models (LLMs). In this work, we explore an under-investigated aspect of DPO - its dependency on the reference model or policy. Such reference policies, typically instantiated as the model to be further fine-tuned, are important since they can impose an upper limit on DPO's effectiveness. Therefore, we address three related research questions in this work. First, we explore the optimal strength of the KL-divergence constraint in DPO, which penalizes deviations from the reference policy, and find that DPO is sensitive to this strength. Next, we examine the necessity of reference policies for instruction fine-tuning by providing both theoretical and empirical comparisons between DPO and related learning objectives, demonstrating DPO's superiority. Additionally, we investigate whether DPO benefits from stronger reference policies, finding that a stronger reference policy can lead to improved performance, but only when it is similar to the model being fine-tuned. Our findings highlight the confounding role of reference policies in DPO and offer insights for best practices, while also identifying open research questions for future studies.

Comprendre les politiques de référence dans l'optimisation des préférences directes

Understanding Reference Policies in Direct Preference Optimization

Résumé

Support