DLP: Динамическое послойное прореживание в крупных языковых моделях
DLP: Dynamic Layerwise Pruning in Large Language Models
May 27, 2025
Авторы: Yuli Chen, Bo Cheng, Jiale Han, Yingying Zhang, Yingting Li, Shuhao Zhang
cs.AI
Аннотация
Обрезка (pruning) в последнее время широко применяется для уменьшения масштаба параметров и повышения эффективности вывода крупных языковых моделей (LLM). Основные методы обрезки часто полагаются на унифицированные послойные стратегии, что может приводить к значительному ухудшению производительности при высоких уровнях разреженности. Учитывая различный вклад разных слоев в LLM, современные исследования сместили фокус на неоднородную послойную обрезку. Однако эти подходы часто основываются на заранее заданных значениях, что может приводить к неоптимальной производительности. Чтобы преодолеть эти ограничения, мы предлагаем новый метод, называемый Динамической Послойной Обрезкой (Dynamic Layerwise Pruning, DLP). Этот подход адаптивно определяет относительную важность каждого слоя, интегрируя веса модели с информацией об активациях входных данных, и назначает соответствующие коэффициенты обрезки. Экспериментальные результаты показывают, что DLP эффективно сохраняет производительность модели при высоких уровнях разреженности для различных LLM. В частности, при 70% разреженности DLP снижает перплексию модели LLaMA2-7B на 7,79 и повышает среднюю точность на 2,7% по сравнению с современными методами. Более того, DLP совместима с различными существующими методами сжатия LLM и может быть легко интегрирована в параметрически эффективную тонкую настройку (Parameter-Efficient Fine-Tuning, PEFT). Мы публикуем код по адресу https://github.com/ironartisan/DLP для содействия дальнейшим исследованиям.
English
Pruning has recently been widely adopted to reduce the parameter scale and
improve the inference efficiency of Large Language Models (LLMs). Mainstream
pruning techniques often rely on uniform layerwise pruning strategies, which
can lead to severe performance degradation at high sparsity levels. Recognizing
the varying contributions of different layers in LLMs, recent studies have
shifted their focus toward non-uniform layerwise pruning. However, these
approaches often rely on pre-defined values, which can result in suboptimal
performance. To overcome these limitations, we propose a novel method called
Dynamic Layerwise Pruning (DLP). This approach adaptively determines the
relative importance of each layer by integrating model weights with input
activation information, assigning pruning rates accordingly. Experimental
results show that DLP effectively preserves model performance at high sparsity
levels across multiple LLMs. Specifically, at 70% sparsity, DLP reduces the
perplexity of LLaMA2-7B by 7.79 and improves the average accuracy by 2.7%
compared to state-of-the-art methods. Moreover, DLP is compatible with various
existing LLM compression techniques and can be seamlessly integrated into
Parameter-Efficient Fine-Tuning (PEFT). We release the code at
https://github.com/ironartisan/DLP to facilitate future research.