Direktes Präferenzwissen-Training zur Wissensdestillation für große Sprachmodelle
Direct Preference Knowledge Distillation for Large Language Models
June 28, 2024
Autoren: Yixing Li, Yuxian Gu, Li Dong, Dequan Wang, Yu Cheng, Furu Wei
cs.AI
Zusammenfassung
Im Bereich großer Sprachmodelle (LLMs) ist die Wissensverdichtung (KD) eine entscheidende Technik zur Übertragung von Fähigkeiten von Lehrmodellen auf Schülermodelle. Allerdings stoßen bestehende KD-Methoden auf Einschränkungen und Herausforderungen bei der Verdichtung von LLMs, darunter Effizienz und unzureichende Messfähigkeiten der traditionellen KL-Divergenz. Es wird gezeigt, dass LLMs als implizite Belohnungsfunktion dienen können, die wir als Ergänzung zur KL-Divergenz definieren. In dieser Arbeit schlagen wir die Direkte Präferenz-Wissensverdichtung (DPKD) für LLMs vor. DPKD nutzt Verteilungsdivergenz, um den Präferenzverlust und die implizite Belohnungsfunktion darzustellen. Wir formulieren die KD von LLMs in zwei Phasen um: zunächst die Optimierung eines Ziels, bestehend aus impliziter Belohnung und umgekehrter KL-Divergenz, und dann die Verbesserung der Präferenzwahrscheinlichkeit der Lehrausgaben gegenüber den Schülerausgaben. Wir führten Experimente und Analysen an verschiedenen Datensätzen mit LLM-Parametern von 120M bis 13B durch und zeigen die breite Anwendbarkeit und Wirksamkeit unseres DPKD-Ansatzes. Gleichzeitig belegen wir den Wert und die Wirksamkeit der eingeführten impliziten Belohnung und Ausgabepräferenz in KD durch Experimente und theoretische Analysen. Die DPKD-Methode übertrifft die Basismethode sowohl in der Präzision der Ausgabereaktion als auch im Prozentsatz der exakten Übereinstimmung. Code und Daten sind unter https://aka.ms/dpkd verfügbar.
English
In the field of large language models (LLMs), Knowledge Distillation (KD) is
a critical technique for transferring capabilities from teacher models to
student models. However, existing KD methods face limitations and challenges in
distillation of LLMs, including efficiency and insufficient measurement
capabilities of traditional KL divergence. It is shown that LLMs can serve as
an implicit reward function, which we define as a supplement to KL divergence.
In this work, we propose Direct Preference Knowledge Distillation (DPKD) for
LLMs. DPKD utilizes distribution divergence to represent the preference loss
and implicit reward function. We re-formulate KD of LLMs into two stages: first
optimizing and objective consisting of implicit reward and reverse KL
divergence and then improving the preference probability of teacher outputs
over student outputs. We conducted experiments and analysis on various datasets
with LLM parameters ranging from 120M to 13B and demonstrate the broad
applicability and effectiveness of our DPKD approach. Meanwhile, we prove the
value and effectiveness of the introduced implicit reward and output preference
in KD through experiments and theoretical analysis. The DPKD method outperforms
the baseline method in both output response precision and exact match
percentage. Code and data are available at https://aka.ms/dpkd.Summary
AI-Generated Summary