Poda y Destilación de LLM en la Práctica: El Enfoque Minitron
LLM Pruning and Distillation in Practice: The Minitron Approach
August 21, 2024
Autores: Sharath Turuvekere Sreenivas, Saurav Muralidharan, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz, Pavlo Molchanov
cs.AI
Resumen
Presentamos un informe exhaustivo sobre la compresión de los modelos Llama 3.1 8B y Mistral NeMo 12B a parámetros de 4B y 8B, respectivamente, utilizando poda y destilación. Exploramos dos estrategias de poda distintas: (1) poda de profundidad y (2) poda conjunta de capas ocultas/atención/MLP (ancho), y evaluamos los resultados en bancos de pruebas comunes del LM Evaluation Harness. Luego, los modelos se alinean con NeMo Aligner y se prueban en versiones ajustadas a instrucciones. Este enfoque produce un modelo convincente de 4B a partir de Llama 3.1 8B y un modelo de vanguardia Mistral-NeMo-Minitron-8B (MN-Minitron-8B para abreviar) a partir de Mistral NeMo 12B. Descubrimos que, sin acceso a los datos originales, es beneficioso ajustar ligeramente los modelos maestros en el conjunto de datos de destilación. Publicamos los pesos de nuestro modelo base en Hugging Face con una licencia permisiva.
English
We present a comprehensive report on compressing the Llama 3.1 8B and Mistral
NeMo 12B models to 4B and 8B parameters, respectively, using pruning and
distillation. We explore two distinct pruning strategies: (1) depth pruning and
(2) joint hidden/attention/MLP (width) pruning, and evaluate the results on
common benchmarks from the LM Evaluation Harness. The models are then aligned
with NeMo Aligner and tested in instruct-tuned versions. This approach produces
a compelling 4B model from Llama 3.1 8B and a state-of-the-art
Mistral-NeMo-Minitron-8B (MN-Minitron-8B for brevity) model from Mistral NeMo
12B. We found that with no access to the original data, it is beneficial to
slightly fine-tune teacher models on the distillation dataset. We open-source
our base model weights on Hugging Face with a permissive license.Summary
AI-Generated Summary