ChatPaper.aiChatPaper

Turbo Sparse: Raggiungere Prestazioni SOTA nei LLM con un Numero Minimale di Parametri Attivati

Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters

June 10, 2024
Autori: Yixin Song, Haotong Xie, Zhengyan Zhang, Bo Wen, Li Ma, Zeyu Mi, Haibo Chen
cs.AI

Abstract

Sfruttare la sparsità delle attivazioni rappresenta un approccio promettente per accelerare significativamente il processo di inferenza dei grandi modelli linguistici (LLM) senza comprometterne le prestazioni. Tuttavia, la sparsità delle attivazioni è determinata dalle funzioni di attivazione, e quelle comunemente utilizzate come SwiGLU e GeGLU mostrano una sparsità limitata. Sostituire semplicemente queste funzioni con ReLU non consente di ottenere una sparsità sufficiente. Inoltre, dati di addestramento inadeguati possono ulteriormente aumentare il rischio di degradazione delle prestazioni. Per affrontare queste sfide, proponiamo una nuova funzione dReLU, progettata per migliorare la sparsità delle attivazioni nei LLM, insieme a un rapporto di miscelazione di dati di addestramento di alta qualità per facilitare un'effettiva sparsificazione. Inoltre, sfruttiamo i modelli di attivazione sparsi all'interno degli esperti della rete feed-forward (FFN) nei modelli Mixture-of-Experts (MoE) per aumentare ulteriormente l'efficienza. Applicando il nostro metodo di sparsificazione neuronale ai modelli Mistral e Mixtral, vengono attivati rispettivamente solo 2,5 miliardi e 4,3 miliardi di parametri per ogni iterazione di inferenza, ottenendo al contempo prestazioni del modello ancora più potenti. I risultati di valutazione dimostrano che questa sparsità consente un'accelerazione della decodifica di 2-5 volte. Notevolmente, sugli smartphone, il nostro TurboSparse-Mixtral-47B raggiunge una velocità di inferenza di 11 token al secondo. I nostri modelli sono disponibili su https://huggingface.co/PowerInfer.
English
Exploiting activation sparsity is a promising approach to significantly accelerating the inference process of large language models (LLMs) without compromising performance. However, activation sparsity is determined by activation functions, and commonly used ones like SwiGLU and GeGLU exhibit limited sparsity. Simply replacing these functions with ReLU fails to achieve sufficient sparsity. Moreover, inadequate training data can further increase the risk of performance degradation. To address these challenges, we propose a novel dReLU function, which is designed to improve LLM activation sparsity, along with a high-quality training data mixture ratio to facilitate effective sparsification. Additionally, we leverage sparse activation patterns within the Feed-Forward Network (FFN) experts of Mixture-of-Experts (MoE) models to further boost efficiency. By applying our neuron sparsification method to the Mistral and Mixtral models, only 2.5 billion and 4.3 billion parameters are activated per inference iteration, respectively, while achieving even more powerful model performance. Evaluation results demonstrate that this sparsity achieves a 2-5x decoding speedup. Remarkably, on mobile phones, our TurboSparse-Mixtral-47B achieves an inference speed of 11 tokens per second. Our models are available at https://huggingface.co/PowerInfer
PDF272February 7, 2026