ChatPaper.aiChatPaper

Destilação de Conhecimento de Preferência Direta para Modelos de Linguagem Grandes

Direct Preference Knowledge Distillation for Large Language Models

June 28, 2024
Autores: Yixing Li, Yuxian Gu, Li Dong, Dequan Wang, Yu Cheng, Furu Wei
cs.AI

Resumo

No campo dos grandes modelos de linguagem (LLMs), a Distorção de Conhecimento (KD) é uma técnica crítica para transferir capacidades dos modelos professores para os modelos alunos. No entanto, os métodos de KD existentes enfrentam limitações e desafios na destilação de LLMs, incluindo eficiência e capacidades de medição insuficientes da divergência KL tradicional. É demonstrado que os LLMs podem servir como uma função de recompensa implícita, que definimos como um complemento à divergência KL. Neste trabalho, propomos a Distorção de Conhecimento de Preferência Direta (DPKD) para LLMs. O DPKD utiliza a divergência de distribuição para representar a perda de preferência e a função de recompensa implícita. Reformulamos a KD dos LLMs em duas etapas: primeiro otimizando um objetivo composto por recompensa implícita e divergência KL reversa e depois melhorando a probabilidade de preferência das saídas do professor sobre as saídas do aluno. Realizamos experimentos e análises em diversos conjuntos de dados com parâmetros de LLM variando de 120M a 13B e demonstramos a ampla aplicabilidade e eficácia de nossa abordagem DPKD. Enquanto isso, comprovamos o valor e a eficácia da recompensa implícita introduzida e da preferência de saída na KD por meio de experimentos e análises teóricas. O método DPKD supera o método de referência tanto em precisão de resposta de saída quanto em percentagem de correspondência exata. O código e os dados estão disponíveis em https://aka.ms/dpkd.
English
In the field of large language models (LLMs), Knowledge Distillation (KD) is a critical technique for transferring capabilities from teacher models to student models. However, existing KD methods face limitations and challenges in distillation of LLMs, including efficiency and insufficient measurement capabilities of traditional KL divergence. It is shown that LLMs can serve as an implicit reward function, which we define as a supplement to KL divergence. In this work, we propose Direct Preference Knowledge Distillation (DPKD) for LLMs. DPKD utilizes distribution divergence to represent the preference loss and implicit reward function. We re-formulate KD of LLMs into two stages: first optimizing and objective consisting of implicit reward and reverse KL divergence and then improving the preference probability of teacher outputs over student outputs. We conducted experiments and analysis on various datasets with LLM parameters ranging from 120M to 13B and demonstrate the broad applicability and effectiveness of our DPKD approach. Meanwhile, we prove the value and effectiveness of the introduced implicit reward and output preference in KD through experiments and theoretical analysis. The DPKD method outperforms the baseline method in both output response precision and exact match percentage. Code and data are available at https://aka.ms/dpkd.
PDF221November 29, 2024