ChatPaper.aiChatPaper

Directe Voorkeurskennisdistillatie voor Grote Taalmodellen

Direct Preference Knowledge Distillation for Large Language Models

June 28, 2024
Auteurs: Yixing Li, Yuxian Gu, Li Dong, Dequan Wang, Yu Cheng, Furu Wei
cs.AI

Samenvatting

Op het gebied van grote taalmmodellen (LLMs) is Knowledge Distillation (KD) een cruciale techniek voor het overdragen van capaciteiten van leraarmodellen naar studentmodellen. Bestaande KD-methoden kampen echter met beperkingen en uitdagingen bij de distillatie van LLMs, waaronder efficiëntie en onvoldoende meetmogelijkheden van de traditionele KL-divergentie. Het is aangetoond dat LLMs kunnen dienen als een impliciete beloningsfunctie, die wij definiëren als een aanvulling op KL-divergentie. In dit werk stellen wij Direct Preference Knowledge Distillation (DPKD) voor voor LLMs. DPKD maakt gebruik van distributiedivergentie om het voorkeursverlies en de impliciete beloningsfunctie weer te geven. Wij herformuleren KD van LLMs in twee fasen: eerst optimaliseren we een doelstelling bestaande uit de impliciete beloning en omgekeerde KL-divergentie, en vervolgens verbeteren we de voorkeurskans van leraaruitvoeringen ten opzichte van studentuitvoeringen. Wij hebben experimenten en analyses uitgevoerd op diverse datasets met LLM-parameters variërend van 120M tot 13B en tonen de brede toepasbaarheid en effectiviteit van onze DPKD-aanpak aan. Tegelijkertijd bewijzen wij de waarde en effectiviteit van de geïntroduceerde impliciete beloning en uitvoerpreferentie in KD door experimenten en theoretische analyse. De DPKD-methode overtreft de baseline-methode zowel in de precisie van de uitvoerrespons als in het exacte overeenstemmingspercentage. Code en data zijn beschikbaar op https://aka.ms/dpkd.
English
In the field of large language models (LLMs), Knowledge Distillation (KD) is a critical technique for transferring capabilities from teacher models to student models. However, existing KD methods face limitations and challenges in distillation of LLMs, including efficiency and insufficient measurement capabilities of traditional KL divergence. It is shown that LLMs can serve as an implicit reward function, which we define as a supplement to KL divergence. In this work, we propose Direct Preference Knowledge Distillation (DPKD) for LLMs. DPKD utilizes distribution divergence to represent the preference loss and implicit reward function. We re-formulate KD of LLMs into two stages: first optimizing and objective consisting of implicit reward and reverse KL divergence and then improving the preference probability of teacher outputs over student outputs. We conducted experiments and analysis on various datasets with LLM parameters ranging from 120M to 13B and demonstrate the broad applicability and effectiveness of our DPKD approach. Meanwhile, we prove the value and effectiveness of the introduced implicit reward and output preference in KD through experiments and theoretical analysis. The DPKD method outperforms the baseline method in both output response precision and exact match percentage. Code and data are available at https://aka.ms/dpkd.
PDF221November 29, 2024