ChatPaper.aiChatPaper

Distillazione Diretta della Conoscenza delle Preferenze per Modelli Linguistici di Grandi Dimensioni

Direct Preference Knowledge Distillation for Large Language Models

June 28, 2024
Autori: Yixing Li, Yuxian Gu, Li Dong, Dequan Wang, Yu Cheng, Furu Wei
cs.AI

Abstract

Nel campo dei grandi modelli linguistici (LLM), la distillazione della conoscenza (Knowledge Distillation, KD) è una tecnica fondamentale per trasferire le capacità dai modelli insegnanti ai modelli studenti. Tuttavia, i metodi di KD esistenti presentano limitazioni e sfide nella distillazione degli LLM, tra cui l'efficienza e le capacità di misurazione insufficienti della tradizionale divergenza KL. È dimostrato che gli LLM possono fungere da funzione di ricompensa implicita, che definiamo come un supplemento alla divergenza KL. In questo lavoro, proponiamo la Distillazione della Conoscenza basata su Preferenze Dirette (Direct Preference Knowledge Distillation, DPKD) per gli LLM. La DPKD utilizza la divergenza di distribuzione per rappresentare la perdita di preferenza e la funzione di ricompensa implicita. Riformuliamo la KD degli LLM in due fasi: prima ottimizzando un obiettivo composto da ricompensa implicita e divergenza KL inversa, e poi migliorando la probabilità di preferenza delle uscite del modello insegnante rispetto a quelle del modello studente. Abbiamo condotto esperimenti e analisi su vari dataset con parametri LLM che vanno da 120M a 13B, dimostrando l'ampia applicabilità e l'efficacia del nostro approccio DPKD. Nel frattempo, dimostriamo il valore e l'efficacia della ricompensa implicita e della preferenza di uscita introdotte nella KD attraverso esperimenti e analisi teoriche. Il metodo DPKD supera il metodo di riferimento sia nella precisione della risposta in uscita che nella percentuale di corrispondenza esatta. Codice e dati sono disponibili all'indirizzo https://aka.ms/dpkd.
English
In the field of large language models (LLMs), Knowledge Distillation (KD) is a critical technique for transferring capabilities from teacher models to student models. However, existing KD methods face limitations and challenges in distillation of LLMs, including efficiency and insufficient measurement capabilities of traditional KL divergence. It is shown that LLMs can serve as an implicit reward function, which we define as a supplement to KL divergence. In this work, we propose Direct Preference Knowledge Distillation (DPKD) for LLMs. DPKD utilizes distribution divergence to represent the preference loss and implicit reward function. We re-formulate KD of LLMs into two stages: first optimizing and objective consisting of implicit reward and reverse KL divergence and then improving the preference probability of teacher outputs over student outputs. We conducted experiments and analysis on various datasets with LLM parameters ranging from 120M to 13B and demonstrate the broad applicability and effectiveness of our DPKD approach. Meanwhile, we prove the value and effectiveness of the introduced implicit reward and output preference in KD through experiments and theoretical analysis. The DPKD method outperforms the baseline method in both output response precision and exact match percentage. Code and data are available at https://aka.ms/dpkd.
PDF221November 29, 2024