LLM-Pruning und Destillation in der Praxis: Der Minitron-Ansatz
LLM Pruning and Distillation in Practice: The Minitron Approach
August 21, 2024
Autoren: Sharath Turuvekere Sreenivas, Saurav Muralidharan, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz, Pavlo Molchanov
cs.AI
Zusammenfassung
Wir präsentieren einen umfassenden Bericht über die Komprimierung der Llama 3.1 8B und Mistral NeMo 12B Modelle auf 4B bzw. 8B Parameter unter Verwendung von Pruning und Distillation. Wir untersuchen zwei unterschiedliche Pruning-Strategien: (1) Tiefenpruning und (2) gemeinsames Versteck-/Aufmerksamkeits-/MLP (Breite) Pruning und evaluieren die Ergebnisse anhand gängiger Benchmarks des LM Evaluation Harness. Die Modelle werden dann mit dem NeMo Aligner ausgerichtet und in instruktionsangepassten Versionen getestet. Dieser Ansatz führt zu einem überzeugenden 4B Modell aus Llama 3.1 8B und einem modernen Mistral-NeMo-Minitron-8B (MN-Minitron-8B zur Kürze) Modell aus Mistral NeMo 12B. Wir haben festgestellt, dass es vorteilhaft ist, Lehrermodelle leicht auf dem Distillationsdatensatz nachzujustieren, ohne Zugriff auf die Originaldaten zu haben. Wir stellen unsere Basis-Modellgewichte unter einer freizügigen Lizenz auf Hugging Face als Open Source zur Verfügung.
English
We present a comprehensive report on compressing the Llama 3.1 8B and Mistral
NeMo 12B models to 4B and 8B parameters, respectively, using pruning and
distillation. We explore two distinct pruning strategies: (1) depth pruning and
(2) joint hidden/attention/MLP (width) pruning, and evaluate the results on
common benchmarks from the LM Evaluation Harness. The models are then aligned
with NeMo Aligner and tested in instruct-tuned versions. This approach produces
a compelling 4B model from Llama 3.1 8B and a state-of-the-art
Mistral-NeMo-Minitron-8B (MN-Minitron-8B for brevity) model from Mistral NeMo
12B. We found that with no access to the original data, it is beneficial to
slightly fine-tune teacher models on the distillation dataset. We open-source
our base model weights on Hugging Face with a permissive license.Summary
AI-Generated Summary