Turbo Sparse: SOTA-prestaties van LLM bereiken met minimaal geactiveerde parameters

Samenvatting

Het benutten van activatiesparsheid is een veelbelovende aanpak om het inferentieproces van grote taalmodelen (LLMs) aanzienlijk te versnellen zonder in te leveren op prestaties. Activatiesparsheid wordt echter bepaald door activatiefuncties, en veelgebruikte functies zoals SwiGLU en GeGLU vertonen beperkte sparsheid. Het simpelweg vervangen van deze functies door ReLU resulteert niet in voldoende sparsheid. Bovendien kan onvoldoende trainingsdata het risico op prestatieverlies verder vergroten. Om deze uitdagingen aan te pakken, stellen we een nieuwe dReLU-functie voor, die is ontworpen om de activatiesparsheid van LLMs te verbeteren, samen met een hoogwaardige mixverhouding van trainingsdata om effectieve versparsing te bevorderen. Daarnaast maken we gebruik van sparse activatiepatronen binnen de Feed-Forward Network (FFN) experts van Mixture-of-Experts (MoE) modellen om de efficiëntie verder te verhogen. Door onze neuronversparsingsmethode toe te passen op de Mistral- en Mixtral-modellen, worden er per inferentie-iteratie respectievelijk slechts 2,5 miljard en 4,3 miljard parameters geactiveerd, terwijl de modelprestaties zelfs krachtiger worden. Evaluatieresultaten tonen aan dat deze sparsheid een 2-5x versnelling van het decodeerproces oplevert. Opmerkelijk is dat onze TurboSparse-Mixtral-47B op mobiele telefoons een inferentiesnelheid van 11 tokens per seconde bereikt. Onze modellen zijn beschikbaar op https://huggingface.co/PowerInfer.

English

Exploiting activation sparsity is a promising approach to significantly accelerating the inference process of large language models (LLMs) without compromising performance. However, activation sparsity is determined by activation functions, and commonly used ones like SwiGLU and GeGLU exhibit limited sparsity. Simply replacing these functions with ReLU fails to achieve sufficient sparsity. Moreover, inadequate training data can further increase the risk of performance degradation. To address these challenges, we propose a novel dReLU function, which is designed to improve LLM activation sparsity, along with a high-quality training data mixture ratio to facilitate effective sparsification. Additionally, we leverage sparse activation patterns within the Feed-Forward Network (FFN) experts of Mixture-of-Experts (MoE) models to further boost efficiency. By applying our neuron sparsification method to the Mistral and Mixtral models, only 2.5 billion and 4.3 billion parameters are activated per inference iteration, respectively, while achieving even more powerful model performance. Evaluation results demonstrate that this sparsity achieves a 2-5x decoding speedup. Remarkably, on mobile phones, our TurboSparse-Mixtral-47B achieves an inference speed of 11 tokens per second. Our models are available at https://huggingface.co/PowerInfer

Turbo Sparse: SOTA-prestaties van LLM bereiken met minimaal geactiveerde parameters

Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters

Samenvatting

Support