Poda e Destilação LLM na Prática: A Abordagem Minitron
LLM Pruning and Distillation in Practice: The Minitron Approach
August 21, 2024
Autores: Sharath Turuvekere Sreenivas, Saurav Muralidharan, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz, Pavlo Molchanov
cs.AI
Resumo
Apresentamos um relatório abrangente sobre a compressão dos modelos Llama 3.1 8B e Mistral NeMo 12B para parâmetros de 4B e 8B, respectivamente, utilizando poda e destilação. Exploramos duas estratégias distintas de poda: (1) poda de profundidade e (2) poda conjunta de camadas ocultas/atencão/MLP (largura), e avaliamos os resultados em benchmarks comuns do LM Evaluation Harness. Os modelos são então alinhados com o NeMo Aligner e testados em versões ajustadas para instruções. Essa abordagem produz um modelo convincente de 4B a partir do Llama 3.1 8B e um modelo de ponta Mistral-NeMo-Minitron-8B (MN-Minitron-8B para abreviar) a partir do Mistral NeMo 12B. Descobrimos que, sem acesso aos dados originais, é benéfico ajustar levemente os modelos professores no conjunto de dados de destilação. Disponibilizamos os pesos de nosso modelo base no Hugging Face com uma licença permissiva.
English
We present a comprehensive report on compressing the Llama 3.1 8B and Mistral
NeMo 12B models to 4B and 8B parameters, respectively, using pruning and
distillation. We explore two distinct pruning strategies: (1) depth pruning and
(2) joint hidden/attention/MLP (width) pruning, and evaluate the results on
common benchmarks from the LM Evaluation Harness. The models are then aligned
with NeMo Aligner and tested in instruct-tuned versions. This approach produces
a compelling 4B model from Llama 3.1 8B and a state-of-the-art
Mistral-NeMo-Minitron-8B (MN-Minitron-8B for brevity) model from Mistral NeMo
12B. We found that with no access to the original data, it is beneficial to
slightly fine-tune teacher models on the distillation dataset. We open-source
our base model weights on Hugging Face with a permissive license.Summary
AI-Generated Summary