ChatPaper.aiChatPaper

Wissensdistillation von großen Sprachmodellen

Knowledge Distillation of Large Language Models

June 14, 2023
Autoren: Yuxian Gu, Li Dong, Furu Wei, Minlie Huang
cs.AI

Zusammenfassung

Knowledge Distillation (KD) ist eine vielversprechende Technik zur Reduzierung des hohen Rechenbedarfs von großen Sprachmodellen (LLMs). Bisherige KD-Methoden werden jedoch hauptsächlich auf White-Box-Klassifikationsmodelle angewendet oder darauf, kleine Modelle dazu zu trainieren, Black-Box-Modelle wie ChatGPT nachzuahmen. Wie man das Wissen aus White-Box-generativen LLMs effektiv destilliert, ist noch weitgehend unerforscht, wird jedoch mit der zunehmenden Verbreitung von LLMs immer wichtiger. In dieser Arbeit schlagen wir MiniLLM vor, das kleinere Sprachmodelle aus generativen größeren Sprachmodellen destilliert. Wir ersetzen zunächst das Forward-Kullback-Leibler-Divergenz (KLD)-Ziel in den Standard-KD-Ansätzen durch Reverse KLD, das besser für KD bei generativen Sprachmodellen geeignet ist, um zu verhindern, dass das Schülermodell die Niedrigwahrscheinlichkeitsbereiche der Lehrerverteilung überschätzt. Anschließend leiten wir einen effektiven Optimierungsansatz ab, um dieses Ziel zu lernen. Umfangreiche Experimente im Kontext der Befolgung von Anweisungen zeigen, dass die MiniLLM-Modelle präzisere Antworten mit höherer Gesamtqualität, geringerem Exposure Bias, besserer Kalibrierung und besserer Leistung bei der Generierung langer Texte erzeugen. Unser Verfahren ist auch skalierbar für verschiedene Modellfamilien mit 120M bis 13B Parametern. Wir werden unseren Code und unsere Modell-Checkpoints unter https://aka.ms/MiniLLM veröffentlichen.
English
Knowledge Distillation (KD) is a promising technique for reducing the high computational demand of large language models (LLMs). However, previous KD methods are primarily applied to white-box classification models or training small models to imitate black-box model APIs like ChatGPT. How to effectively distill the knowledge from white-box generative LLMs is still under-explored, which becomes more and more important with the prosperity of LLMs. In this work, we propose MiniLLM that distills smaller language models from generative larger language models. We first replace the forward Kullback-Leibler divergence (KLD) objective in the standard KD approaches with reverse KLD, which is more suitable for KD on generative language models, to prevent the student model from overestimating the low-probability regions of the teacher distribution. Then, we derive an effective optimization approach to learn this objective. Extensive experiments in the instruction-following setting show that the MiniLLM models generate more precise responses with the higher overall quality, lower exposure bias, better calibration, and higher long-text generation performance. Our method is also scalable for different model families with 120M to 13B parameters. We will release our code and model checkpoints at https://aka.ms/MiniLLM.
PDF200December 15, 2024