ChatPaper.aiChatPaper

Turbo Sparse: Erzielen der besten Leistung mit minimal aktivierten Parametern in LLM

Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters

June 10, 2024
Autoren: Yixin Song, Haotong Xie, Zhengyan Zhang, Bo Wen, Li Ma, Zeyu Mi, Haibo Chen
cs.AI

Zusammenfassung

Die Ausnutzung von Aktivitätssparsamkeit ist ein vielversprechender Ansatz, um den Inferenzprozess großer Sprachmodelle (LLMs) signifikant zu beschleunigen, ohne die Leistung zu beeinträchtigen. Die Aktivitätssparsamkeit wird jedoch durch Aktivierungsfunktionen bestimmt, und häufig verwendete wie SwiGLU und GeGLU zeigen nur begrenzte Sparsamkeit. Ein einfacher Austausch dieser Funktionen durch ReLU führt nicht zu ausreichender Sparsamkeit. Darüber hinaus kann unzureichende Trainingsdaten das Risiko einer Leistungsverschlechterung weiter erhöhen. Um diese Herausforderungen anzugehen, schlagen wir eine neuartige dReLU-Funktion vor, die entwickelt wurde, um die Aktivitätssparsamkeit von LLMs zu verbessern, zusammen mit einem hochwertigen Trainingsdatenmischungsverhältnis, um eine effektive Sparsamkeit zu erleichtern. Darüber hinaus nutzen wir die sparsamen Aktivierungsmuster innerhalb der Feed-Forward Network (FFN)-Experten von Mixture-of-Experts (MoE)-Modellen, um die Effizienz weiter zu steigern. Durch die Anwendung unserer Neuronensparsamkeitsmethode auf die Mistral- und Mixtral-Modelle werden nur 2,5 Milliarden bzw. 4,3 Milliarden Parameter pro Inferenziteration aktiviert, während eine noch leistungsstärkere Modellleistung erreicht wird. Evaluierungsergebnisse zeigen, dass diese Sparsamkeit eine 2-5-fache Dekodierungsgeschwindigkeitssteigerung erreicht. Bemerkenswert ist, dass unser TurboSparse-Mixtral-47B auf Mobiltelefonen eine Inferenzgeschwindigkeit von 11 Token pro Sekunde erreicht. Unsere Modelle sind unter https://huggingface.co/PowerInfer verfügbar.
English
Exploiting activation sparsity is a promising approach to significantly accelerating the inference process of large language models (LLMs) without compromising performance. However, activation sparsity is determined by activation functions, and commonly used ones like SwiGLU and GeGLU exhibit limited sparsity. Simply replacing these functions with ReLU fails to achieve sufficient sparsity. Moreover, inadequate training data can further increase the risk of performance degradation. To address these challenges, we propose a novel dReLU function, which is designed to improve LLM activation sparsity, along with a high-quality training data mixture ratio to facilitate effective sparsification. Additionally, we leverage sparse activation patterns within the Feed-Forward Network (FFN) experts of Mixture-of-Experts (MoE) models to further boost efficiency. By applying our neuron sparsification method to the Mistral and Mixtral models, only 2.5 billion and 4.3 billion parameters are activated per inference iteration, respectively, while achieving even more powerful model performance. Evaluation results demonstrate that this sparsity achieves a 2-5x decoding speedup. Remarkably, on mobile phones, our TurboSparse-Mixtral-47B achieves an inference speed of 11 tokens per second. Our models are available at https://huggingface.co/PowerInfer

Summary

AI-Generated Summary

PDF282December 8, 2024