Distilação de Conhecimento em Modelos de Linguagem de Grande Escala

Resumo

A Distilação de Conhecimento (KD) é uma técnica promissora para reduzir a alta demanda computacional de grandes modelos de linguagem (LLMs). No entanto, os métodos anteriores de KD são aplicados principalmente a modelos de classificação de caixa branca ou ao treinamento de modelos menores para imitar APIs de modelos de caixa preta, como o ChatGPT. Como efetivamente destilar o conhecimento de LLMs generativos de caixa branca ainda é pouco explorado, tornando-se cada vez mais importante com o crescimento dos LLMs. Neste trabalho, propomos o MiniLLM, que destila modelos de linguagem menores a partir de LLMs generativos maiores. Primeiro, substituímos o objetivo de divergência de Kullback-Leibler (KLD) direta nas abordagens padrão de KD pela KLD reversa, que é mais adequada para KD em modelos de linguagem generativos, para evitar que o modelo estudante superestime as regiões de baixa probabilidade da distribuição do professor. Em seguida, derivamos uma abordagem de otimização eficaz para aprender esse objetivo. Experimentos extensos no cenário de seguimento de instruções mostram que os modelos MiniLLM geram respostas mais precisas, com maior qualidade geral, menor viés de exposição, melhor calibração e maior desempenho na geração de textos longos. Nosso método também é escalável para diferentes famílias de modelos, com parâmetros variando de 120M a 13B. Disponibilizaremos nosso código e checkpoints de modelo em https://aka.ms/MiniLLM.

English

Knowledge Distillation (KD) is a promising technique for reducing the high computational demand of large language models (LLMs). However, previous KD methods are primarily applied to white-box classification models or training small models to imitate black-box model APIs like ChatGPT. How to effectively distill the knowledge from white-box generative LLMs is still under-explored, which becomes more and more important with the prosperity of LLMs. In this work, we propose MiniLLM that distills smaller language models from generative larger language models. We first replace the forward Kullback-Leibler divergence (KLD) objective in the standard KD approaches with reverse KLD, which is more suitable for KD on generative language models, to prevent the student model from overestimating the low-probability regions of the teacher distribution. Then, we derive an effective optimization approach to learn this objective. Extensive experiments in the instruction-following setting show that the MiniLLM models generate more precise responses with the higher overall quality, lower exposure bias, better calibration, and higher long-text generation performance. Our method is also scalable for different model families with 120M to 13B parameters. We will release our code and model checkpoints at https://aka.ms/MiniLLM.

Distilação de Conhecimento em Modelos de Linguagem de Grande Escala

Knowledge Distillation of Large Language Models

Resumo

Support