ChatPaper.aiChatPaper

Destilação de Pré-treinamento para Modelos de Linguagem Grandes: Uma Exploração do Espaço de Design

Pre-training Distillation for Large Language Models: A Design Space Exploration

October 21, 2024
Autores: Hao Peng, Xin Lv, Yushi Bai, Zijun Yao, Jiajie Zhang, Lei Hou, Juanzi Li
cs.AI

Resumo

A destilação de conhecimento (KD) tem como objetivo transferir conhecimento de um modelo professor grande para um modelo aluno menor. Trabalhos anteriores aplicando KD no campo de grandes modelos de linguagem (LLMs) tipicamente focaram na fase pós-treinamento, onde o LLM aluno aprende diretamente a partir de instruções e respostas correspondentes geradas pelo modelo professor. Neste artigo, estendemos o KD para a fase de pré-treinamento de LLMs, denominada destilação de pré-treinamento (PD). Primeiramente, realizamos um experimento preliminar utilizando o GLM-4-9B como o LLM professor para destilar um LLM aluno com 1.9B de parâmetros, validando a eficácia do PD. Considerando os principais fatores de impacto da destilação, exploramos sistematicamente o espaço de design da destilação de pré-treinamento em quatro aspectos: processamento de logits, seleção de perda, lei de escala e logits offline ou online. Realizamos experimentos extensivos para explorar o espaço de design da destilação de pré-treinamento e encontramos melhores configurações e conclusões interessantes, como o fato de LLMs alunos maiores geralmente se beneficiarem mais da destilação de pré-treinamento, enquanto um LLM professor maior não garante necessariamente melhores resultados. Esperamos que nossa exploração do espaço de design informe práticas futuras na destilação de pré-treinamento.
English
Knowledge distillation (KD) aims to transfer knowledge from a large teacher model to a smaller student model. Previous work applying KD in the field of large language models (LLMs) typically focused on the post-training phase, where the student LLM learns directly from instructions and corresponding responses generated by the teacher model. In this paper, we extend KD to the pre-training phase of LLMs, named pre-training distillation (PD). We first conduct a preliminary experiment using GLM-4-9B as the teacher LLM to distill a 1.9B parameter student LLM, validating the effectiveness of PD. Considering the key impact factors of distillation, we systematically explore the design space of pre-training distillation across four aspects: logits processing, loss selection, scaling law, and offline or online logits. We conduct extensive experiments to explore the design space of pre-training distillation and find better configurations and interesting conclusions, such as larger student LLMs generally benefiting more from pre-training distillation, while a larger teacher LLM does not necessarily guarantee better results. We hope our exploration of the design space will inform future practices in pre-training distillation.

Summary

AI-Generated Summary

PDF162November 16, 2024