DLP: Poda Dinâmica por Camadas em Modelos de Linguagem de Grande Escala
DLP: Dynamic Layerwise Pruning in Large Language Models
May 27, 2025
Autores: Yuli Chen, Bo Cheng, Jiale Han, Yingying Zhang, Yingting Li, Shuhao Zhang
cs.AI
Resumo
A poda tem sido amplamente adotada recentemente para reduzir a escala de parâmetros e melhorar a eficiência de inferência dos Modelos de Linguagem de Grande Escala (LLMs). As técnicas de poda predominantes frequentemente dependem de estratégias uniformes de poda por camadas, o que pode levar a uma degradação severa do desempenho em níveis elevados de esparsidade. Reconhecendo as contribuições variáveis de diferentes camadas nos LLMs, estudos recentes têm direcionado seu foco para a poda não uniforme por camadas. No entanto, essas abordagens frequentemente dependem de valores pré-definidos, o que pode resultar em desempenho subótimo. Para superar essas limitações, propomos um novo método chamado Poda Dinâmica por Camadas (Dynamic Layerwise Pruning - DLP). Essa abordagem determina adaptativamente a importância relativa de cada camada ao integrar os pesos do modelo com informações de ativação de entrada, atribuindo taxas de poda de acordo. Resultados experimentais mostram que o DLP preserva efetivamente o desempenho do modelo em níveis elevados de esparsidade em múltiplos LLMs. Especificamente, com 70% de esparsidade, o DLP reduz a perplexidade do LLaMA2-7B em 7,79 e melhora a precisão média em 2,7% em comparação com os métodos mais avançados atualmente. Além disso, o DLP é compatível com várias técnicas de compressão de LLMs existentes e pode ser integrado de forma contínua ao Ajuste Fino Eficiente em Parâmetros (Parameter-Efficient Fine-Tuning - PEFT). Disponibilizamos o código em https://github.com/ironartisan/DLP para facilitar pesquisas futuras.
English
Pruning has recently been widely adopted to reduce the parameter scale and
improve the inference efficiency of Large Language Models (LLMs). Mainstream
pruning techniques often rely on uniform layerwise pruning strategies, which
can lead to severe performance degradation at high sparsity levels. Recognizing
the varying contributions of different layers in LLMs, recent studies have
shifted their focus toward non-uniform layerwise pruning. However, these
approaches often rely on pre-defined values, which can result in suboptimal
performance. To overcome these limitations, we propose a novel method called
Dynamic Layerwise Pruning (DLP). This approach adaptively determines the
relative importance of each layer by integrating model weights with input
activation information, assigning pruning rates accordingly. Experimental
results show that DLP effectively preserves model performance at high sparsity
levels across multiple LLMs. Specifically, at 70% sparsity, DLP reduces the
perplexity of LLaMA2-7B by 7.79 and improves the average accuracy by 2.7%
compared to state-of-the-art methods. Moreover, DLP is compatible with various
existing LLM compression techniques and can be seamlessly integrated into
Parameter-Efficient Fine-Tuning (PEFT). We release the code at
https://github.com/ironartisan/DLP to facilitate future research.