Modelli Linguistici Compatti tramite Potatura e Distillazione della Conoscenza
Compact Language Models via Pruning and Knowledge Distillation
July 19, 2024
Autori: Saurav Muralidharan, Sharath Turuvekere Sreenivas, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz, Pavlo Molchanov
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) destinati a diverse scale e dimensioni di implementazione sono attualmente prodotti addestrando ogni variante da zero; questo processo è estremamente intensivo dal punto di vista computazionale. In questo articolo, indaghiamo se il pruning di un LLM esistente e il suo successivo riaddestramento con una frazione (<3%) dei dati di addestramento originali possa rappresentare un'alternativa valida al ripetuto riaddestramento completo. A tal fine, sviluppiamo un insieme di best practice pratiche ed efficaci per la compressione degli LLM che combinano il pruning di profondità, larghezza, attenzione e MLP con il riaddestramento basato sulla distillazione della conoscenza; arriviamo a queste best practice attraverso un'esplorazione empirica dettagliata delle strategie di pruning per ciascun asse, dei metodi per combinare gli assi, delle strategie di distillazione e delle tecniche di ricerca per ottenere architetture compresse ottimali. Utilizziamo questa guida per comprimere la famiglia di LLM Nemotron-4 di un fattore compreso tra 2 e 4 volte, e confrontiamo le loro prestazioni con modelli di dimensioni simili su una varietà di task di modellazione linguistica. Derivare modelli da 8B e 4B da un modello già preaddestrato da 15B utilizzando il nostro approccio richiede fino a 40 volte meno token di addestramento per modello rispetto all'addestramento da zero; ciò si traduce in un risparmio dei costi computazionali di 1,8 volte per l'addestramento dell'intera famiglia di modelli (15B, 8B e 4B). I modelli Minitron mostrano un miglioramento fino al 16% nei punteggi MMLU rispetto all'addestramento da zero, si comportano in modo comparabile ad altri modelli della comunità come Mistral 7B, Gemma 7B e Llama-3 8B, e superano le tecniche di compressione all'avanguardia presenti in letteratura. Abbiamo reso open-source i pesi dei modelli Minitron su Huggingface, con materiale supplementare corrispondente incluso codice di esempio disponibile su GitHub.
English
Large language models (LLMs) targeting different deployment scales and sizes
are currently produced by training each variant from scratch; this is extremely
compute-intensive. In this paper, we investigate if pruning an existing LLM and
then re-training it with a fraction (<3%) of the original training data can be
a suitable alternative to repeated, full retraining. To this end, we develop a
set of practical and effective compression best practices for LLMs that combine
depth, width, attention and MLP pruning with knowledge distillation-based
retraining; we arrive at these best practices through a detailed empirical
exploration of pruning strategies for each axis, methods to combine axes,
distillation strategies, and search techniques for arriving at optimal
compressed architectures. We use this guide to compress the Nemotron-4 family
of LLMs by a factor of 2-4x, and compare their performance to similarly-sized
models on a variety of language modeling tasks. Deriving 8B and 4B models from
an already pretrained 15B model using our approach requires up to 40x fewer
training tokens per model compared to training from scratch; this results in
compute cost savings of 1.8x for training the full model family (15B, 8B, and
4B). Minitron models exhibit up to a 16% improvement in MMLU scores compared to
training from scratch, perform comparably to other community models such as
Mistral 7B, Gemma 7B and Llama-3 8B, and outperform state-of-the-art
compression techniques from the literature. We have open-sourced Minitron model
weights on Huggingface, with corresponding supplementary material including
example code available on GitHub.