LLMの剪定と蒸留の実践:ミニトロンアプローチLLM Pruning and Distillation in Practice: The Minitron Approach
Llama 3.1 8BおよびMistral NeMo 12Bモデルをそれぞれ4Bおよび8Bのパラメータに圧縮するための剪定と蒸留を用いた包括的なレポートを提供します。我々は2つの異なる剪定戦略、すなわち(1)深さ剪定と(2)共通のベンチマークデータで結果を評価する隠れ層/注意機構/MLP(幅)剪定を探求します。その後、NeMo Alignerでモデルを整列させ、instruct-tunedバージョンでテストします。このアプローチにより、Llama 3.1 8Bから魅力的な4Bモデルが生成され、Mistral NeMo 12Bから最先端のMistral-NeMo-Minitron-8B(MN-Minitron-8Bと略す)モデルが生成されます。我々は、元のデータにアクセスできない場合、蒸留データセットで教師モデルをわずかに微調整することが有益であることを見出しました。我々は、Hugging Faceでベースモデルの重みをオープンソース化し、許諾されたライセンスで提供します。