Destilación de pre-entrenamiento para modelos de lenguaje grandes: una exploración del espacio de diseño
Pre-training Distillation for Large Language Models: A Design Space Exploration
October 21, 2024
Autores: Hao Peng, Xin Lv, Yushi Bai, Zijun Yao, Jiajie Zhang, Lei Hou, Juanzi Li
cs.AI
Resumen
La destilación del conocimiento (KD) tiene como objetivo transferir conocimiento de un modelo docente grande a un modelo estudiantil más pequeño. Trabajos previos que aplican KD en el campo de los grandes modelos de lenguaje (LLMs) típicamente se centraron en la fase posterior al entrenamiento, donde el LLM estudiantil aprende directamente de las instrucciones y respuestas correspondientes generadas por el modelo docente. En este documento, extendemos KD a la fase de pre-entrenamiento de LLMs, denominada destilación de pre-entrenamiento (PD). Realizamos primero un experimento preliminar utilizando GLM-4-9B como el LLM docente para destilar un LLM estudiantil de 1.9B parámetros, validando la efectividad de PD. Considerando los factores clave de impacto de la destilación, exploramos sistemáticamente el espacio de diseño de la destilación de pre-entrenamiento en cuatro aspectos: procesamiento de logits, selección de pérdida, ley de escala y logits en línea u offline. Realizamos experimentos extensos para explorar el espacio de diseño de la destilación de pre-entrenamiento y encontrar configuraciones mejores y conclusiones interesantes, como que los LLMs estudiantiles más grandes generalmente se benefician más de la destilación de pre-entrenamiento, mientras que un LLM docente más grande no garantiza necesariamente mejores resultados. Esperamos que nuestra exploración del espacio de diseño informe las prácticas futuras en la destilación de pre-entrenamiento.
English
Knowledge distillation (KD) aims to transfer knowledge from a large teacher
model to a smaller student model. Previous work applying KD in the field of
large language models (LLMs) typically focused on the post-training phase,
where the student LLM learns directly from instructions and corresponding
responses generated by the teacher model. In this paper, we extend KD to the
pre-training phase of LLMs, named pre-training distillation (PD). We first
conduct a preliminary experiment using GLM-4-9B as the teacher LLM to distill a
1.9B parameter student LLM, validating the effectiveness of PD. Considering the
key impact factors of distillation, we systematically explore the design space
of pre-training distillation across four aspects: logits processing, loss
selection, scaling law, and offline or online logits. We conduct extensive
experiments to explore the design space of pre-training distillation and find
better configurations and interesting conclusions, such as larger student LLMs
generally benefiting more from pre-training distillation, while a larger
teacher LLM does not necessarily guarantee better results. We hope our
exploration of the design space will inform future practices in pre-training
distillation.Summary
AI-Generated Summary