Distilación de Conocimiento de Preferencias Directas para Modelos de Lenguaje a Gran Escala
Direct Preference Knowledge Distillation for Large Language Models
June 28, 2024
Autores: Yixing Li, Yuxian Gu, Li Dong, Dequan Wang, Yu Cheng, Furu Wei
cs.AI
Resumen
En el campo de los modelos de lenguaje a gran escala (LLMs, por sus siglas en inglés), la Distilación de Conocimiento (KD, por sus siglas en inglés) es una técnica fundamental para transferir capacidades desde modelos maestros a modelos estudiantes. Sin embargo, los métodos de KD existentes enfrentan limitaciones y desafíos en la distilación de LLMs, incluyendo la eficiencia y las capacidades insuficientes de medición de la divergencia KL tradicional. Se demuestra que los LLMs pueden servir como una función de recompensa implícita, que definimos como un complemento a la divergencia KL. En este trabajo, proponemos la Distilación de Conocimiento de Preferencia Directa (DPKD, por sus siglas en inglés) para LLMs. DPKD utiliza la divergencia de distribución para representar la pérdida de preferencia y la función de recompensa implícita. Reformulamos la KD de LLMs en dos etapas: primero optimizando un objetivo que consiste en la recompensa implícita y la divergencia KL inversa, y luego mejorando la probabilidad de preferencia de las salidas del maestro sobre las salidas del estudiante. Realizamos experimentos y análisis en varios conjuntos de datos con parámetros de LLM que van desde 120M hasta 13B, y demostramos la amplia aplicabilidad y efectividad de nuestro enfoque DPKD. Además, probamos el valor y la efectividad de la recompensa implícita y la preferencia de salida introducidas en la KD a través de experimentos y análisis teóricos. El método DPKD supera al método de referencia tanto en la precisión de la respuesta de salida como en el porcentaje de coincidencia exacta. El código y los datos están disponibles en https://aka.ms/dpkd.
English
In the field of large language models (LLMs), Knowledge Distillation (KD) is
a critical technique for transferring capabilities from teacher models to
student models. However, existing KD methods face limitations and challenges in
distillation of LLMs, including efficiency and insufficient measurement
capabilities of traditional KL divergence. It is shown that LLMs can serve as
an implicit reward function, which we define as a supplement to KL divergence.
In this work, we propose Direct Preference Knowledge Distillation (DPKD) for
LLMs. DPKD utilizes distribution divergence to represent the preference loss
and implicit reward function. We re-formulate KD of LLMs into two stages: first
optimizing and objective consisting of implicit reward and reverse KL
divergence and then improving the preference probability of teacher outputs
over student outputs. We conducted experiments and analysis on various datasets
with LLM parameters ranging from 120M to 13B and demonstrate the broad
applicability and effectiveness of our DPKD approach. Meanwhile, we prove the
value and effectiveness of the introduced implicit reward and output preference
in KD through experiments and theoretical analysis. The DPKD method outperforms
the baseline method in both output response precision and exact match
percentage. Code and data are available at https://aka.ms/dpkd.Summary
AI-Generated Summary