ChatPaper.aiChatPaper

Turbo Sparse: 최소 활성화 파라미터로 LLM SOTA 성능 달성

Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters

June 10, 2024
저자: Yixin Song, Haotong Xie, Zhengyan Zhang, Bo Wen, Li Ma, Zeyu Mi, Haibo Chen
cs.AI

초록

활성화 희소성을 활용하는 것은 대규모 언어 모델(LLM)의 추론 과정을 성능 저하 없이 크게 가속화할 수 있는 유망한 접근법입니다. 그러나 활성화 희소성은 활성화 함수에 의해 결정되며, SwiGLU나 GeGLU와 같이 널리 사용되는 함수들은 제한된 희소성만을 보입니다. 단순히 이러한 함수를 ReLU로 대체하는 것은 충분한 희소성을 달성하지 못합니다. 또한, 부적절한 학습 데이터는 성능 저하의 위험을 더욱 증가시킬 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 LLM의 활성화 희소성을 개선하기 위해 설계된 새로운 dReLU 함수와 효과적인 희소화를 촉진하는 고품질 학습 데이터 혼합 비율을 제안합니다. 더불어, Mixture-of-Experts(MoE) 모델의 Feed-Forward Network(FFN) 전문가 내에서의 희소 활성화 패턴을 활용하여 효율성을 더욱 증대시킵니다. 우리의 뉴런 희소화 방법을 Mistral과 Mixtral 모델에 적용한 결과, 각각 25억 개와 43억 개의 매개변수만이 추론 반복마다 활성화되면서도 더 강력한 모델 성능을 달성했습니다. 평가 결과는 이러한 희소성이 디코딩 속도를 2-5배 가속화함을 보여줍니다. 특히, 모바일 기기에서 우리의 TurboSparse-Mixtral-47B는 초당 11개의 토큰을 처리하는 추론 속도를 달성했습니다. 우리의 모델은 https://huggingface.co/PowerInfer에서 확인할 수 있습니다.
English
Exploiting activation sparsity is a promising approach to significantly accelerating the inference process of large language models (LLMs) without compromising performance. However, activation sparsity is determined by activation functions, and commonly used ones like SwiGLU and GeGLU exhibit limited sparsity. Simply replacing these functions with ReLU fails to achieve sufficient sparsity. Moreover, inadequate training data can further increase the risk of performance degradation. To address these challenges, we propose a novel dReLU function, which is designed to improve LLM activation sparsity, along with a high-quality training data mixture ratio to facilitate effective sparsification. Additionally, we leverage sparse activation patterns within the Feed-Forward Network (FFN) experts of Mixture-of-Experts (MoE) models to further boost efficiency. By applying our neuron sparsification method to the Mistral and Mixtral models, only 2.5 billion and 4.3 billion parameters are activated per inference iteration, respectively, while achieving even more powerful model performance. Evaluation results demonstrate that this sparsity achieves a 2-5x decoding speedup. Remarkably, on mobile phones, our TurboSparse-Mixtral-47B achieves an inference speed of 11 tokens per second. Our models are available at https://huggingface.co/PowerInfer

Summary

AI-Generated Summary

PDF282December 8, 2024