Прямая дистилляция знаний предпочтений для больших языковых моделей
Direct Preference Knowledge Distillation for Large Language Models
June 28, 2024
Авторы: Yixing Li, Yuxian Gu, Li Dong, Dequan Wang, Yu Cheng, Furu Wei
cs.AI
Аннотация
В области больших языковых моделей (LLM) техника Дистилляции Знаний (KD) является критической для передачи возможностей от моделей-учителей к моделям-ученикам. Однако существующие методы KD сталкиваются с ограничениями и вызовами при дистилляции LLM, включая эффективность и недостаточные возможности измерения традиционного дивергенции KL. Показано, что LLM могут выступать в качестве неявной функции вознаграждения, которую мы определяем как дополнение к дивергенции KL. В данной работе мы предлагаем Прямую Дистилляцию Предпочтений Знаний (DPKD) для LLM. DPKD использует дивергенцию распределения для представления потерь предпочтений и неявной функции вознаграждения. Мы переформулируем KD LLM на два этапа: сначала оптимизируем цель, состоящую из неявного вознаграждения и обратной дивергенции KL, а затем улучшаем вероятность предпочтения выходных данных учителя перед выходными данными ученика. Мы провели эксперименты и анализ на различных наборах данных с параметрами LLM от 120M до 13B и продемонстрировали широкие возможности и эффективность нашего подхода DPKD. Тем временем мы доказываем ценность и эффективность введенного неявного вознаграждения и предпочтения выходных данных в KD через эксперименты и теоретический анализ. Метод DPKD превосходит базовый метод как по точности ответа на выходе, так и по проценту точного совпадения. Код и данные доступны по ссылке https://aka.ms/dpkd.
English
In the field of large language models (LLMs), Knowledge Distillation (KD) is
a critical technique for transferring capabilities from teacher models to
student models. However, existing KD methods face limitations and challenges in
distillation of LLMs, including efficiency and insufficient measurement
capabilities of traditional KL divergence. It is shown that LLMs can serve as
an implicit reward function, which we define as a supplement to KL divergence.
In this work, we propose Direct Preference Knowledge Distillation (DPKD) for
LLMs. DPKD utilizes distribution divergence to represent the preference loss
and implicit reward function. We re-formulate KD of LLMs into two stages: first
optimizing and objective consisting of implicit reward and reverse KL
divergence and then improving the preference probability of teacher outputs
over student outputs. We conducted experiments and analysis on various datasets
with LLM parameters ranging from 120M to 13B and demonstrate the broad
applicability and effectiveness of our DPKD approach. Meanwhile, we prove the
value and effectiveness of the introduced implicit reward and output preference
in KD through experiments and theoretical analysis. The DPKD method outperforms
the baseline method in both output response precision and exact match
percentage. Code and data are available at https://aka.ms/dpkd.Summary
AI-Generated Summary