Distillation des Préférences Directes pour les Grands Modèles de Langage
Direct Preference Knowledge Distillation for Large Language Models
June 28, 2024
Auteurs: Yixing Li, Yuxian Gu, Li Dong, Dequan Wang, Yu Cheng, Furu Wei
cs.AI
Résumé
Dans le domaine des grands modèles de langage (LLMs), la distillation de connaissances (Knowledge Distillation, KD) est une technique essentielle pour transférer les capacités des modèles enseignants vers les modèles étudiants. Cependant, les méthodes de KD existantes rencontrent des limitations et des défis dans la distillation des LLMs, notamment en termes d'efficacité et de capacités de mesure insuffisantes de la divergence KL traditionnelle. Il est démontré que les LLMs peuvent servir de fonction de récompense implicite, que nous définissons comme un complément à la divergence KL. Dans ce travail, nous proposons la Distillation de Connaissances par Préférence Directe (Direct Preference Knowledge Distillation, DPKD) pour les LLMs. La DPKD utilise la divergence de distribution pour représenter la perte de préférence et la fonction de récompense implicite. Nous reformulons la KD des LLMs en deux étapes : d'abord en optimisant un objectif composé de la récompense implicite et de la divergence KL inverse, puis en améliorant la probabilité de préférence des sorties du modèle enseignant par rapport à celles du modèle étudiant. Nous avons mené des expériences et des analyses sur divers ensembles de données avec des LLMs dont les paramètres varient de 120M à 13B, et nous démontrons la large applicabilité et l'efficacité de notre approche DPKD. Par ailleurs, nous prouvons la valeur et l'efficacité de la récompense implicite et de la préférence de sortie introduites dans la KD à travers des expériences et une analyse théorique. La méthode DPKD surpasse la méthode de référence à la fois en précision des réponses et en pourcentage de correspondance exacte. Le code et les données sont disponibles à l'adresse https://aka.ms/dpkd.
English
In the field of large language models (LLMs), Knowledge Distillation (KD) is
a critical technique for transferring capabilities from teacher models to
student models. However, existing KD methods face limitations and challenges in
distillation of LLMs, including efficiency and insufficient measurement
capabilities of traditional KL divergence. It is shown that LLMs can serve as
an implicit reward function, which we define as a supplement to KL divergence.
In this work, we propose Direct Preference Knowledge Distillation (DPKD) for
LLMs. DPKD utilizes distribution divergence to represent the preference loss
and implicit reward function. We re-formulate KD of LLMs into two stages: first
optimizing and objective consisting of implicit reward and reverse KL
divergence and then improving the preference probability of teacher outputs
over student outputs. We conducted experiments and analysis on various datasets
with LLM parameters ranging from 120M to 13B and demonstrate the broad
applicability and effectiveness of our DPKD approach. Meanwhile, we prove the
value and effectiveness of the introduced implicit reward and output preference
in KD through experiments and theoretical analysis. The DPKD method outperforms
the baseline method in both output response precision and exact match
percentage. Code and data are available at https://aka.ms/dpkd.Summary
AI-Generated Summary