SEAP: Training-vrije Sparse Expert Activatie Pruning Ontsluit de Hersenkracht van Grote Taalmodellen
SEAP: Training-free Sparse Expert Activation Pruning Unlock the Brainpower of Large Language Models
March 10, 2025
Auteurs: Xun Liang, Hanyu Wang, Huayi Lai, Simin Niu, Shichao Song, Jiawei Yang, Jihao Zhao, Feiyu Xiong, Bo Tang, Zhiyu Li
cs.AI
Samenvatting
Grote Taalmodellen hebben opmerkelijke successen behaald bij diverse natuurlijke taalverwerkingstaken, maar hun hoge rekenkosten tijdens inferentie blijven een groot knelpunt. Dit artikel introduceert Sparse Expert Activation Pruning (SEAP), een trainingsvrije pruningmethode die selectief taakrelevante parameters behoudt om de inferentie-overhead te verminderen. Geïnspireerd door de clusteringpatronen van verborgen toestanden en activeringen in LLM's, identificeert SEAP taakspecifieke expertactivatiepatronen en snoeit het model terwijl de taakprestaties behouden blijven en de rekenkundige efficiëntie wordt verbeterd. Experimentele resultaten tonen aan dat SEAP de rekenkundige overhead aanzienlijk vermindert terwijl het concurrerende nauwkeurigheid behoudt. Opmerkelijk is dat SEAP bij 50% pruning zowel WandA als FLAP met meer dan 20% overtreft, en bij 20% pruning slechts een prestatieverlies van 2,2% heeft in vergelijking met het dichte model. Deze bevindingen benadrukken de schaalbaarheid en effectiviteit van SEAP, wat het een veelbelovende aanpak maakt voor het optimaliseren van grootschalige LLM's.
English
Large Language Models have achieved remarkable success across various natural
language processing tasks, yet their high computational cost during inference
remains a major bottleneck. This paper introduces Sparse Expert Activation
Pruning (SEAP), a training-free pruning method that selectively retains
task-relevant parameters to reduce inference overhead. Inspired by the
clustering patterns of hidden states and activations in LLMs, SEAP identifies
task-specific expert activation patterns and prunes the model while preserving
task performance and enhancing computational efficiency. Experimental results
demonstrate that SEAP significantly reduces computational overhead while
maintaining competitive accuracy. Notably, at 50% pruning, SEAP surpasses both
WandA and FLAP by over 20%, and at 20% pruning, it incurs only a 2.2%
performance drop compared to the dense model. These findings highlight SEAP's
scalability and effectiveness, making it a promising approach for optimizing
large-scale LLMs.Summary
AI-Generated Summary