ChatPaper.aiChatPaper

DLP: Dynamisches schichtweises Pruning in großen Sprachmodellen

DLP: Dynamic Layerwise Pruning in Large Language Models

May 27, 2025
Autoren: Yuli Chen, Bo Cheng, Jiale Han, Yingying Zhang, Yingting Li, Shuhao Zhang
cs.AI

Zusammenfassung

Das Pruning (Beschneiden) wurde in letzter Zeit weit verbreitet eingesetzt, um die Parameteranzahl zu reduzieren und die Inferenzeffizienz von Large Language Models (LLMs) zu verbessern. Mainstream-Pruning-Techniken basieren oft auf einheitlichen, schichtenweisen Beschneidungsstrategien, die bei hohen Sparsamkeitsniveaus zu erheblichen Leistungseinbußen führen können. In Anerkennung der unterschiedlichen Beiträge verschiedener Schichten in LLMs haben sich neuere Studien auf nicht-uniforme, schichtenweise Beschneidungsverfahren konzentriert. Diese Ansätze stützen sich jedoch häufig auf vordefinierte Werte, was zu suboptimalen Ergebnissen führen kann. Um diese Einschränkungen zu überwinden, schlagen wir eine neue Methode namens Dynamic Layerwise Pruning (DLP) vor. Dieser Ansatz bestimmt adaptiv die relative Bedeutung jeder Schicht, indem er Modellgewichte mit Informationen über die Eingabeaktivierung integriert und entsprechend Beschneidungsraten zuweist. Experimentelle Ergebnisse zeigen, dass DLP die Modellleistung bei hohen Sparsamkeitsniveaus über mehrere LLMs hinweg effektiv bewahrt. Insbesondere reduziert DLP bei 70 % Sparsamkeit die Perplexität von LLaMA2-7B um 7,79 und verbessert die durchschnittliche Genauigkeit um 2,7 % im Vergleich zu state-of-the-art Methoden. Darüber hinaus ist DLP mit verschiedenen bestehenden LLM-Komprimierungstechniken kompatibel und kann nahtlos in Parameter-Efficient Fine-Tuning (PEFT) integriert werden. Wir veröffentlichen den Code unter https://github.com/ironartisan/DLP, um zukünftige Forschung zu erleichtern.
English
Pruning has recently been widely adopted to reduce the parameter scale and improve the inference efficiency of Large Language Models (LLMs). Mainstream pruning techniques often rely on uniform layerwise pruning strategies, which can lead to severe performance degradation at high sparsity levels. Recognizing the varying contributions of different layers in LLMs, recent studies have shifted their focus toward non-uniform layerwise pruning. However, these approaches often rely on pre-defined values, which can result in suboptimal performance. To overcome these limitations, we propose a novel method called Dynamic Layerwise Pruning (DLP). This approach adaptively determines the relative importance of each layer by integrating model weights with input activation information, assigning pruning rates accordingly. Experimental results show that DLP effectively preserves model performance at high sparsity levels across multiple LLMs. Specifically, at 70% sparsity, DLP reduces the perplexity of LLaMA2-7B by 7.79 and improves the average accuracy by 2.7% compared to state-of-the-art methods. Moreover, DLP is compatible with various existing LLM compression techniques and can be seamlessly integrated into Parameter-Efficient Fine-Tuning (PEFT). We release the code at https://github.com/ironartisan/DLP to facilitate future research.
PDF42June 5, 2025