ChatPaper.aiChatPaper

Élagage et distillation de LLM en pratique : l'approche Minitron

LLM Pruning and Distillation in Practice: The Minitron Approach

August 21, 2024
Auteurs: Sharath Turuvekere Sreenivas, Saurav Muralidharan, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz, Pavlo Molchanov
cs.AI

Résumé

Nous présentons un rapport complet sur la compression des modèles Llama 3.1 8B et Mistral NeMo 12B en paramètres 4B et 8B, respectivement, en utilisant la technique de pruning et de distillation. Nous explorons deux stratégies de pruning distinctes : (1) le pruning en profondeur et (2) le pruning conjoint des couches cachées/attention/MLP (largeur), et évaluons les résultats sur des benchmarks courants de l'évaluation LM Harness. Les modèles sont ensuite alignés avec NeMo Aligner et testés dans des versions ajustées à l'instruction. Cette approche produit un modèle 4B convaincant à partir de Llama 3.1 8B et un modèle Mistral-NeMo-Minitron-8B de pointe (abrégé MN-Minitron-8B) à partir de Mistral NeMo 12B. Nous avons constaté qu'en l'absence d'accès aux données originales, il est bénéfique de légèrement affiner les modèles enseignants sur l'ensemble de données de distillation. Nous mettons nos poids de modèle de base en open source sur Hugging Face avec une licence permissive.
English
We present a comprehensive report on compressing the Llama 3.1 8B and Mistral NeMo 12B models to 4B and 8B parameters, respectively, using pruning and distillation. We explore two distinct pruning strategies: (1) depth pruning and (2) joint hidden/attention/MLP (width) pruning, and evaluate the results on common benchmarks from the LM Evaluation Harness. The models are then aligned with NeMo Aligner and tested in instruct-tuned versions. This approach produces a compelling 4B model from Llama 3.1 8B and a state-of-the-art Mistral-NeMo-Minitron-8B (MN-Minitron-8B for brevity) model from Mistral NeMo 12B. We found that with no access to the original data, it is beneficial to slightly fine-tune teacher models on the distillation dataset. We open-source our base model weights on Hugging Face with a permissive license.

Summary

AI-Generated Summary

PDF594November 16, 2024