ChatPaper.aiChatPaper

大規模言語モデルのための事前トレーニング蒸留:デザインスペースの探索

Pre-training Distillation for Large Language Models: A Design Space Exploration

October 21, 2024
著者: Hao Peng, Xin Lv, Yushi Bai, Zijun Yao, Jiajie Zhang, Lei Hou, Juanzi Li
cs.AI

要旨

知識蒸留(Knowledge Distillation、KD)は、大規模な教師モデルから小さな生徒モデルへの知識移転を目指しています。大規模言語モデル(Large Language Models、LLMs)の分野でKDを適用した先行研究は、通常、生徒LLMが教師モデルによって生成された指示と対応する応答から直接学習する事後トレーニング段階に焦点を当てていました。本論文では、LLMsの事前トレーニング段階にKDを拡張し、事前トレーニング蒸留(Pre-training Distillation、PD)と名付けます。GLM-4-9Bを教師LLMとして使用し、1.9Bパラメータの生徒LLMを蒸留する予備実験を行い、PDの効果を検証します。蒸留の主要な影響要因を考慮して、事前トレーニング蒸留の設計空間を「ロジット処理」「損失選択」「スケーリング則」「オフラインまたはオンラインのロジット」の4つの側面で体系的に探求します。事前トレーニング蒸留の設計空間を探索するために幅広い実験を実施し、より良い構成や興味深い結論を見つけます。たとえば、一般的に大きな生徒LLMは事前トレーニング蒸留からより多くの利益を得る一方、大きな教師LLMが必ずしもより良い結果を保証するわけではないことがあります。設計空間の探索が、将来の事前トレーニング蒸留における実践に貢献することを期待しています。
English
Knowledge distillation (KD) aims to transfer knowledge from a large teacher model to a smaller student model. Previous work applying KD in the field of large language models (LLMs) typically focused on the post-training phase, where the student LLM learns directly from instructions and corresponding responses generated by the teacher model. In this paper, we extend KD to the pre-training phase of LLMs, named pre-training distillation (PD). We first conduct a preliminary experiment using GLM-4-9B as the teacher LLM to distill a 1.9B parameter student LLM, validating the effectiveness of PD. Considering the key impact factors of distillation, we systematically explore the design space of pre-training distillation across four aspects: logits processing, loss selection, scaling law, and offline or online logits. We conduct extensive experiments to explore the design space of pre-training distillation and find better configurations and interesting conclusions, such as larger student LLMs generally benefiting more from pre-training distillation, while a larger teacher LLM does not necessarily guarantee better results. We hope our exploration of the design space will inform future practices in pre-training distillation.

Summary

AI-Generated Summary

PDF162November 16, 2024