ChatPaper.aiChatPaper

DLP: Poda Dinámica por Capas en Modelos de Lenguaje de Gran Escala

DLP: Dynamic Layerwise Pruning in Large Language Models

May 27, 2025
Autores: Yuli Chen, Bo Cheng, Jiale Han, Yingying Zhang, Yingting Li, Shuhao Zhang
cs.AI

Resumen

La poda (pruning) ha sido ampliamente adoptada recientemente para reducir la escala de parámetros y mejorar la eficiencia en la inferencia de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Las técnicas de poda más comunes suelen basarse en estrategias uniformes por capas, lo que puede provocar una degradación severa del rendimiento en niveles altos de dispersión (sparsity). Reconociendo las contribuciones variables de las diferentes capas en los LLMs, estudios recientes han centrado su atención en la poda no uniforme por capas. Sin embargo, estos enfoques suelen depender de valores predefinidos, lo que puede resultar en un rendimiento subóptimo. Para superar estas limitaciones, proponemos un método novedoso llamado Poda Dinámica por Capas (Dynamic Layerwise Pruning, DLP). Este enfoque determina de manera adaptativa la importancia relativa de cada capa al integrar los pesos del modelo con la información de activación de las entradas, asignando tasas de poda en consecuencia. Los resultados experimentales muestran que DLP preserva eficazmente el rendimiento del modelo en niveles altos de dispersión en múltiples LLMs. Específicamente, con un 70% de dispersión, DLP reduce la perplejidad de LLaMA2-7B en 7,79 y mejora la precisión promedio en un 2,7% en comparación con los métodos más avanzados. Además, DLP es compatible con diversas técnicas de compresión de LLMs existentes y puede integrarse sin problemas en el Ajuste Fino Eficiente en Parámetros (Parameter-Efficient Fine-Tuning, PEFT). Publicamos el código en https://github.com/ironartisan/DLP para facilitar investigaciones futuras.
English
Pruning has recently been widely adopted to reduce the parameter scale and improve the inference efficiency of Large Language Models (LLMs). Mainstream pruning techniques often rely on uniform layerwise pruning strategies, which can lead to severe performance degradation at high sparsity levels. Recognizing the varying contributions of different layers in LLMs, recent studies have shifted their focus toward non-uniform layerwise pruning. However, these approaches often rely on pre-defined values, which can result in suboptimal performance. To overcome these limitations, we propose a novel method called Dynamic Layerwise Pruning (DLP). This approach adaptively determines the relative importance of each layer by integrating model weights with input activation information, assigning pruning rates accordingly. Experimental results show that DLP effectively preserves model performance at high sparsity levels across multiple LLMs. Specifically, at 70% sparsity, DLP reduces the perplexity of LLaMA2-7B by 7.79 and improves the average accuracy by 2.7% compared to state-of-the-art methods. Moreover, DLP is compatible with various existing LLM compression techniques and can be seamlessly integrated into Parameter-Efficient Fine-Tuning (PEFT). We release the code at https://github.com/ironartisan/DLP to facilitate future research.
PDF42June 5, 2025