ChatPaper.aiChatPaper

Pruning e Distillazione degli LLM in Pratica: L'Approccio Minitron

LLM Pruning and Distillation in Practice: The Minitron Approach

August 21, 2024
Autori: Sharath Turuvekere Sreenivas, Saurav Muralidharan, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz, Pavlo Molchanov
cs.AI

Abstract

Presentiamo un rapporto completo sulla compressione dei modelli Llama 3.1 8B e Mistral NeMo 12B rispettivamente a 4B e 8B parametri, utilizzando tecniche di pruning e distillazione. Esploriamo due strategie di pruning distinte: (1) pruning in profondità e (2) pruning congiunto di hidden/attention/MLP (in larghezza), e valutiamo i risultati su benchmark comuni tratti dall'LM Evaluation Harness. I modelli vengono poi allineati con NeMo Aligner e testati in versioni ottimizzate per istruzioni. Questo approccio produce un modello 4B convincente a partire da Llama 3.1 8B e un modello all'avanguardia Mistral-NeMo-Minitron-8B (MN-Minitron-8B in breve) a partire da Mistral NeMo 12B. Abbiamo riscontrato che, in assenza di accesso ai dati originali, è vantaggioso effettuare un leggero fine-tuning dei modelli insegnanti sul dataset di distillazione. Rilasciamo i pesi del nostro modello base su Hugging Face con una licenza permissiva.
English
We present a comprehensive report on compressing the Llama 3.1 8B and Mistral NeMo 12B models to 4B and 8B parameters, respectively, using pruning and distillation. We explore two distinct pruning strategies: (1) depth pruning and (2) joint hidden/attention/MLP (width) pruning, and evaluate the results on common benchmarks from the LM Evaluation Harness. The models are then aligned with NeMo Aligner and tested in instruct-tuned versions. This approach produces a compelling 4B model from Llama 3.1 8B and a state-of-the-art Mistral-NeMo-Minitron-8B (MN-Minitron-8B for brevity) model from Mistral NeMo 12B. We found that with no access to the original data, it is beneficial to slightly fine-tune teacher models on the distillation dataset. We open-source our base model weights on Hugging Face with a permissive license.
PDF574November 16, 2024