ChatPaper.aiChatPaper

DLP: Dynamische Laaggewijze Pruning in Grote Taalmodellen

DLP: Dynamic Layerwise Pruning in Large Language Models

May 27, 2025
Auteurs: Yuli Chen, Bo Cheng, Jiale Han, Yingying Zhang, Yingting Li, Shuhao Zhang
cs.AI

Samenvatting

Pruning is recentelijk op grote schaal geadopteerd om de parameterschaal te verkleinen en de inferentie-efficiëntie van Large Language Models (LLMs) te verbeteren. Mainstream pruningtechnieken vertrouwen vaak op uniforme laaggewijze pruningstrategieën, wat kan leiden tot ernstige prestatievermindering bij hoge sparsity-niveaus. Gezien de variërende bijdragen van verschillende lagen in LLMs, hebben recente studies hun focus verlegd naar niet-uniforme laaggewijze pruning. Deze benaderingen zijn echter vaak gebaseerd op vooraf gedefinieerde waarden, wat kan resulteren in suboptimale prestaties. Om deze beperkingen te overwinnen, stellen we een nieuwe methode voor genaamd Dynamic Layerwise Pruning (DLP). Deze benadering bepaalt adaptief het relatieve belang van elke laag door modelgewichten te integreren met inputactivatie-informatie, en wijst pruningpercentages dienovereenkomstig toe. Experimentele resultaten tonen aan dat DLP effectief de modelprestaties behoudt bij hoge sparsity-niveaus over meerdere LLMs. Specifiek reduceert DLP bij 70% sparsity de perplexiteit van LLaMA2-7B met 7,79 en verbetert het de gemiddelde nauwkeurigheid met 2,7% in vergelijking met state-of-the-art methoden. Bovendien is DLP compatibel met verschillende bestaande LLM-compressietechnieken en kan het naadloos worden geïntegreerd in Parameter-Efficient Fine-Tuning (PEFT). We hebben de code vrijgegeven op https://github.com/ironartisan/DLP om toekomstig onderzoek te faciliteren.
English
Pruning has recently been widely adopted to reduce the parameter scale and improve the inference efficiency of Large Language Models (LLMs). Mainstream pruning techniques often rely on uniform layerwise pruning strategies, which can lead to severe performance degradation at high sparsity levels. Recognizing the varying contributions of different layers in LLMs, recent studies have shifted their focus toward non-uniform layerwise pruning. However, these approaches often rely on pre-defined values, which can result in suboptimal performance. To overcome these limitations, we propose a novel method called Dynamic Layerwise Pruning (DLP). This approach adaptively determines the relative importance of each layer by integrating model weights with input activation information, assigning pruning rates accordingly. Experimental results show that DLP effectively preserves model performance at high sparsity levels across multiple LLMs. Specifically, at 70% sparsity, DLP reduces the perplexity of LLaMA2-7B by 7.79 and improves the average accuracy by 2.7% compared to state-of-the-art methods. Moreover, DLP is compatible with various existing LLM compression techniques and can be seamlessly integrated into Parameter-Efficient Fine-Tuning (PEFT). We release the code at https://github.com/ironartisan/DLP to facilitate future research.
PDF42June 5, 2025