DLP : Élagage Dynamique Couche par Couche dans les Grands Modèles de Langage
DLP: Dynamic Layerwise Pruning in Large Language Models
May 27, 2025
Auteurs: Yuli Chen, Bo Cheng, Jiale Han, Yingying Zhang, Yingting Li, Shuhao Zhang
cs.AI
Résumé
L'élagage a récemment été largement adopté pour réduire l'échelle des paramètres et améliorer l'efficacité de l'inférence des modèles de langage de grande taille (LLMs). Les techniques d'élagage dominantes reposent souvent sur des stratégies uniformes par couches, ce qui peut entraîner une dégradation significative des performances à des niveaux de sparsité élevés. Conscients des contributions variables des différentes couches dans les LLMs, les études récentes ont recentré leur attention sur l'élagage non uniforme par couches. Cependant, ces approches s'appuient souvent sur des valeurs prédéfinies, ce qui peut conduire à des performances sous-optimales. Pour surmonter ces limitations, nous proposons une nouvelle méthode appelée Élagage Dynamique par Couches (Dynamic Layerwise Pruning, DLP). Cette approche détermine de manière adaptative l'importance relative de chaque couche en intégrant les poids du modèle avec les informations d'activation en entrée, attribuant ainsi les taux d'élagage en conséquence. Les résultats expérimentaux montrent que DLP préserve efficacement les performances du modèle à des niveaux de sparsité élevés pour plusieurs LLMs. Plus précisément, à 70 % de sparsité, DLP réduit la perplexité de LLaMA2-7B de 7,79 et améliore la précision moyenne de 2,7 % par rapport aux méthodes de pointe. De plus, DLP est compatible avec diverses techniques de compression existantes pour les LLMs et peut être intégré de manière transparente dans le réglage fin efficace en paramètres (Parameter-Efficient Fine-Tuning, PEFT). Nous publions le code à l'adresse https://github.com/ironartisan/DLP pour faciliter les recherches futures.
English
Pruning has recently been widely adopted to reduce the parameter scale and
improve the inference efficiency of Large Language Models (LLMs). Mainstream
pruning techniques often rely on uniform layerwise pruning strategies, which
can lead to severe performance degradation at high sparsity levels. Recognizing
the varying contributions of different layers in LLMs, recent studies have
shifted their focus toward non-uniform layerwise pruning. However, these
approaches often rely on pre-defined values, which can result in suboptimal
performance. To overcome these limitations, we propose a novel method called
Dynamic Layerwise Pruning (DLP). This approach adaptively determines the
relative importance of each layer by integrating model weights with input
activation information, assigning pruning rates accordingly. Experimental
results show that DLP effectively preserves model performance at high sparsity
levels across multiple LLMs. Specifically, at 70% sparsity, DLP reduces the
perplexity of LLaMA2-7B by 7.79 and improves the average accuracy by 2.7%
compared to state-of-the-art methods. Moreover, DLP is compatible with various
existing LLM compression techniques and can be seamlessly integrated into
Parameter-Efficient Fine-Tuning (PEFT). We release the code at
https://github.com/ironartisan/DLP to facilitate future research.