DLP: Potatura Dinamica Stratificata nei Modelli Linguistici di Grande Dimensione
DLP: Dynamic Layerwise Pruning in Large Language Models
May 27, 2025
Autori: Yuli Chen, Bo Cheng, Jiale Han, Yingying Zhang, Yingting Li, Shuhao Zhang
cs.AI
Abstract
Il pruning è stato recentemente ampiamente adottato per ridurre la scala dei parametri e migliorare l'efficienza nell'inferenza dei Large Language Models (LLM). Le tecniche di pruning più diffuse si basano spesso su strategie uniformi a livello di strato, che possono portare a un significativo degrado delle prestazioni a livelli elevati di sparsità. Riconoscendo il contributo variabile dei diversi strati nei LLM, studi recenti hanno spostato l'attenzione verso approcci di pruning non uniformi a livello di strato. Tuttavia, questi metodi spesso si basano su valori predefiniti, che possono risultare in prestazioni subottimali. Per superare queste limitazioni, proponiamo un nuovo metodo chiamato Dynamic Layerwise Pruning (DLP). Questo approccio determina in modo adattivo l'importanza relativa di ciascuno strato integrando i pesi del modello con le informazioni di attivazione in ingresso, assegnando di conseguenza i tassi di pruning. I risultati sperimentali dimostrano che DLP preserva efficacemente le prestazioni del modello a livelli elevati di sparsità in diversi LLM. In particolare, con una sparsità del 70%, DLP riduce la perplexity di LLaMA2-7B di 7,79 e migliora l'accuratezza media del 2,7% rispetto ai metodi più avanzati. Inoltre, DLP è compatibile con varie tecniche esistenti di compressione dei LLM e può essere integrato senza soluzione di continuità nel Parameter-Efficient Fine-Tuning (PEFT). Rilasciamo il codice all'indirizzo https://github.com/ironartisan/DLP per facilitare la ricerca futura.
English
Pruning has recently been widely adopted to reduce the parameter scale and
improve the inference efficiency of Large Language Models (LLMs). Mainstream
pruning techniques often rely on uniform layerwise pruning strategies, which
can lead to severe performance degradation at high sparsity levels. Recognizing
the varying contributions of different layers in LLMs, recent studies have
shifted their focus toward non-uniform layerwise pruning. However, these
approaches often rely on pre-defined values, which can result in suboptimal
performance. To overcome these limitations, we propose a novel method called
Dynamic Layerwise Pruning (DLP). This approach adaptively determines the
relative importance of each layer by integrating model weights with input
activation information, assigning pruning rates accordingly. Experimental
results show that DLP effectively preserves model performance at high sparsity
levels across multiple LLMs. Specifically, at 70% sparsity, DLP reduces the
perplexity of LLaMA2-7B by 7.79 and improves the average accuracy by 2.7%
compared to state-of-the-art methods. Moreover, DLP is compatible with various
existing LLM compression techniques and can be seamlessly integrated into
Parameter-Efficient Fine-Tuning (PEFT). We release the code at
https://github.com/ironartisan/DLP to facilitate future research.