Modèles de Langage Compacts par Élagage et Distillation de Connaissances

papers.abstract

Les grands modèles de langage (LLM) ciblant différentes échelles et tailles de déploiement sont actuellement produits en entraînant chaque variante à partir de zéro, ce qui est extrêmement coûteux en termes de calcul. Dans cet article, nous étudions si l'élagage d'un LLM existant suivi d'un réentraînement avec une fraction (<3%) des données d'entraînement originales peut constituer une alternative viable à un réentraînement complet répété. À cette fin, nous développons un ensemble de meilleures pratiques pratiques et efficaces pour la compression des LLM, combinant l'élagage en profondeur, en largeur, des mécanismes d'attention et des couches MLP avec un réentraînement basé sur la distillation de connaissances. Nous parvenons à ces meilleures pratiques grâce à une exploration empirique détaillée des stratégies d'élagage pour chaque axe, des méthodes pour combiner les axes, des stratégies de distillation et des techniques de recherche pour aboutir à des architectures compressées optimales. Nous utilisons ce guide pour compresser la famille de LLM Nemotron-4 par un facteur de 2 à 4x, et comparons leurs performances à celles de modèles de taille similaire sur une variété de tâches de modélisation du langage. Dériver des modèles de 8B et 4B à partir d'un modèle préentraîné de 15B en utilisant notre approche nécessite jusqu'à 40x moins de tokens d'entraînement par modèle par rapport à un entraînement à partir de zéro, ce qui se traduit par des économies de coût de calcul de 1,8x pour l'entraînement de la famille complète de modèles (15B, 8B et 4B). Les modèles Minitron montrent une amélioration allant jusqu'à 16% des scores MMLU par rapport à un entraînement à partir de zéro, performent de manière comparable à d'autres modèles communautaires tels que Mistral 7B, Gemma 7B et Llama-3 8B, et surpassent les techniques de compression de pointe issues de la littérature. Nous avons open-sourcé les poids des modèles Minitron sur Huggingface, avec un matériel supplémentaire correspondant incluant un exemple de code disponible sur GitHub.

English

Large language models (LLMs) targeting different deployment scales and sizes are currently produced by training each variant from scratch; this is extremely compute-intensive. In this paper, we investigate if pruning an existing LLM and then re-training it with a fraction (<3%) of the original training data can be a suitable alternative to repeated, full retraining. To this end, we develop a set of practical and effective compression best practices for LLMs that combine depth, width, attention and MLP pruning with knowledge distillation-based retraining; we arrive at these best practices through a detailed empirical exploration of pruning strategies for each axis, methods to combine axes, distillation strategies, and search techniques for arriving at optimal compressed architectures. We use this guide to compress the Nemotron-4 family of LLMs by a factor of 2-4x, and compare their performance to similarly-sized models on a variety of language modeling tasks. Deriving 8B and 4B models from an already pretrained 15B model using our approach requires up to 40x fewer training tokens per model compared to training from scratch; this results in compute cost savings of 1.8x for training the full model family (15B, 8B, and 4B). Minitron models exhibit up to a 16% improvement in MMLU scores compared to training from scratch, perform comparably to other community models such as Mistral 7B, Gemma 7B and Llama-3 8B, and outperform state-of-the-art compression techniques from the literature. We have open-sourced Minitron model weights on Huggingface, with corresponding supplementary material including example code available on GitHub.

Modèles de Langage Compacts par Élagage et Distillation de Connaissances

Compact Language Models via Pruning and Knowledge Distillation

papers.abstract

Support