SEAP: 학습 없이도 희소 전문가 활성화 가지치기로 대규모 언어 모델의 두뇌 역량을 발휘하다
SEAP: Training-free Sparse Expert Activation Pruning Unlock the Brainpower of Large Language Models
March 10, 2025
저자: Xun Liang, Hanyu Wang, Huayi Lai, Simin Niu, Shichao Song, Jiawei Yang, Jihao Zhao, Feiyu Xiong, Bo Tang, Zhiyu Li
cs.AI
초록
대규모 언어 모델(LLM)은 다양한 자연어 처리 작업에서 놀라운 성과를 거두었지만, 추론 과정에서 발생하는 높은 계산 비용은 여전히 주요 병목 현상으로 남아 있습니다. 본 논문은 추론 오버헤드를 줄이기 위해 작업과 관련된 파라미터를 선택적으로 유지하는 학습이 필요 없는 가지치기 기법인 Sparse Expert Activation Pruning(SEAP)을 소개합니다. SEAP는 LLM의 은닉 상태와 활성화 패턴의 클러스터링 특성에서 영감을 받아, 작업 특화적인 전문가 활성화 패턴을 식별하고 작업 성능을 유지하면서 모델을 가지치기하여 계산 효율성을 향상시킵니다. 실험 결과는 SEAP가 경쟁력 있는 정확도를 유지하면서도 계산 오버헤드를 크게 줄인다는 것을 보여줍니다. 특히, 50% 가지치기에서 SEAP는 WandA와 FLAP을 20% 이상 능가하며, 20% 가지치기에서는 밀집 모델 대비 단 2.2%의 성능 하락만을 보였습니다. 이러한 결과는 SEAP의 확장성과 효과성을 강조하며, 대규모 LLM 최적화를 위한 유망한 접근법임을 입증합니다.
English
Large Language Models have achieved remarkable success across various natural
language processing tasks, yet their high computational cost during inference
remains a major bottleneck. This paper introduces Sparse Expert Activation
Pruning (SEAP), a training-free pruning method that selectively retains
task-relevant parameters to reduce inference overhead. Inspired by the
clustering patterns of hidden states and activations in LLMs, SEAP identifies
task-specific expert activation patterns and prunes the model while preserving
task performance and enhancing computational efficiency. Experimental results
demonstrate that SEAP significantly reduces computational overhead while
maintaining competitive accuracy. Notably, at 50% pruning, SEAP surpasses both
WandA and FLAP by over 20%, and at 20% pruning, it incurs only a 2.2%
performance drop compared to the dense model. These findings highlight SEAP's
scalability and effectiveness, making it a promising approach for optimizing
large-scale LLMs.Summary
AI-Generated Summary