Turbo Sparse : Atteindre les performances SOTA des LLM avec un nombre minimal de paramètres activés
Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters
June 10, 2024
Auteurs: Yixin Song, Haotong Xie, Zhengyan Zhang, Bo Wen, Li Ma, Zeyu Mi, Haibo Chen
cs.AI
Résumé
Exploiter la parcimonie des activations est une approche prometteuse pour accélérer significativement le processus d'inférence des grands modèles de langage (LLMs) sans compromettre leurs performances. Cependant, la parcimonie des activations est déterminée par les fonctions d'activation, et celles couramment utilisées comme SwiGLU et GeGLU présentent une parcimonie limitée. Remplacer simplement ces fonctions par ReLU ne permet pas d'atteindre une parcimonie suffisante. De plus, des données d'entraînement inadéquates peuvent augmenter le risque de dégradation des performances. Pour relever ces défis, nous proposons une nouvelle fonction dReLU, conçue pour améliorer la parcimonie des activations des LLMs, ainsi qu'un ratio de mélange de données d'entraînement de haute qualité pour faciliter une sparsification efficace. Par ailleurs, nous exploitons les motifs d'activation parcimonieux au sein des experts du réseau feed-forward (FFN) des modèles Mixture-of-Experts (MoE) pour accroître encore l'efficacité. En appliquant notre méthode de sparsification neuronale aux modèles Mistral et Mixtral, seulement 2,5 milliards et 4,3 milliards de paramètres sont activés par itération d'inférence, respectivement, tout en obtenant des performances de modèle encore plus puissantes. Les résultats d'évaluation montrent que cette parcimonie permet une accélération du décodage de 2 à 5 fois. De manière remarquable, sur les téléphones mobiles, notre TurboSparse-Mixtral-47B atteint une vitesse d'inférence de 11 tokens par seconde. Nos modèles sont disponibles à l'adresse https://huggingface.co/PowerInfer.
English
Exploiting activation sparsity is a promising approach to significantly
accelerating the inference process of large language models (LLMs) without
compromising performance. However, activation sparsity is determined by
activation functions, and commonly used ones like SwiGLU and GeGLU exhibit
limited sparsity. Simply replacing these functions with ReLU fails to achieve
sufficient sparsity. Moreover, inadequate training data can further increase
the risk of performance degradation. To address these challenges, we propose a
novel dReLU function, which is designed to improve LLM activation sparsity,
along with a high-quality training data mixture ratio to facilitate effective
sparsification. Additionally, we leverage sparse activation patterns within the
Feed-Forward Network (FFN) experts of Mixture-of-Experts (MoE) models to
further boost efficiency. By applying our neuron sparsification method to the
Mistral and Mixtral models, only 2.5 billion and 4.3 billion parameters are
activated per inference iteration, respectively, while achieving even more
powerful model performance. Evaluation results demonstrate that this sparsity
achieves a 2-5x decoding speedup. Remarkably, on mobile phones, our
TurboSparse-Mixtral-47B achieves an inference speed of 11 tokens per second.
Our models are available at https://huggingface.co/PowerInferSummary
AI-Generated Summary