LLM修剪与蒸馏实践:Minitron方法LLM Pruning and Distillation in Practice: The Minitron Approach
我们提出了一份关于使用剪枝和蒸馏技术,将Llama 3.1 8B和Mistral NeMo 12B模型压缩至4B和8B参数的全面报告。我们探讨了两种不同的剪枝策略:(1)深度剪枝和(2)联合隐藏层/注意力/MLP(宽度)剪枝,并在LM评估工具中对结果进行评估。然后,我们使用NeMo Aligner对模型进行对齐,并在经过指导微调的版本中进行测试。这种方法从Llama 3.1 8B生成了一个引人注目的4B模型,并从Mistral NeMo 12B生成了一流的Mistral-NeMo-Minitron-8B(简称MN-Minitron-8B)模型。我们发现,在没有访问原始数据的情况下,对蒸馏数据集上的教师模型进行轻微微调是有益的。我们在Hugging Face上以一种宽松的许可证开源了我们的基础模型权重。