ChatPaper.aiChatPaper

DDK: 効率的な大規模言語モデルのためのドメイン知識蒸留

DDK: Distilling Domain Knowledge for Efficient Large Language Models

July 23, 2024
著者: Jiaheng Liu, Chenchen Zhang, Jinyang Guo, Yuanxing Zhang, Haoran Que, Ken Deng, Zhiqi Bai, Jie Liu, Ge Zhang, Jiakai Wang, Yanan Wu, Congnan Liu, Wenbo Su, Jiamang Wang, Lin Qu, Bo Zheng
cs.AI

要旨

大規模言語モデル(LLM)は様々なアプリケーションにおいて高度な知能能力を発揮する一方で、依然として計算リソースとストレージの面で大きな負荷がかかります。知識蒸留(Knowledge Distillation, KD)は、高性能なLLM(教師モデル)から知識を転送することで、より小規模なLLM(学生モデル)の性能を向上させる効果的な戦略として注目されています。従来のLLM蒸留技術では、ブラックボックスモデルのAPIを使用して高品質な事前学習済みデータセットを生成したり、損失関数を変更して教師LLMからの知識転送を改善するホワイトボックス蒸留を活用したりする方法が一般的でした。しかし、これらの手法は学生モデルと教師モデルの間のドメインごとの知識の差異を無視しており、性能差が小さいドメインに過度に焦点を当てる一方で、差が大きいドメインへの注意が不十分になるため、全体の性能が低下する問題がありました。本論文では、DDKと呼ばれる新しいLLM蒸留フレームワークを提案します。DDKは、教師モデルと学生モデルのドメインごとの性能差に応じて、蒸留データセットの構成を滑らかに動的に調整することで、蒸留プロセスをより安定かつ効果的にします。広範な評価の結果、DDKは学生モデルの性能を大幅に向上させ、継続的に事前学習されたベースラインや既存の知識蒸留手法を大きく上回ることが示されました。
English
Despite the advanced intelligence abilities of large language models (LLMs) in various applications, they still face significant computational and storage demands. Knowledge Distillation (KD) has emerged as an effective strategy to improve the performance of a smaller LLM (i.e., the student model) by transferring knowledge from a high-performing LLM (i.e., the teacher model). Prevailing techniques in LLM distillation typically use a black-box model API to generate high-quality pretrained and aligned datasets, or utilize white-box distillation by altering the loss function to better transfer knowledge from the teacher LLM. However, these methods ignore the knowledge differences between the student and teacher LLMs across domains. This results in excessive focus on domains with minimal performance gaps and insufficient attention to domains with large gaps, reducing overall performance. In this paper, we introduce a new LLM distillation framework called DDK, which dynamically adjusts the composition of the distillation dataset in a smooth manner according to the domain performance differences between the teacher and student models, making the distillation process more stable and effective. Extensive evaluations show that DDK significantly improves the performance of student models, outperforming both continuously pretrained baselines and existing knowledge distillation methods by a large margin.
PDF222November 28, 2024