Q-Sparse : Tous les grands modèles de langage peuvent être entièrement activés de manière éparse

papers.abstract

Nous présentons Q-Sparse, une approche simple mais efficace pour entraîner des modèles de langage de grande taille (LLMs) à activation parcimonieuse. Q-Sparse permet une parcimonie totale des activations dans les LLMs, ce qui peut apporter des gains significatifs en efficacité lors de l'inférence. Cela est réalisé en appliquant une sparsification top-K aux activations et l'estimateur direct (straight-through-estimator) à l'entraînement. Les principaux résultats de ce travail sont : (1) Q-Sparse peut atteindre des résultats comparables à ceux des LLMs de référence tout en étant beaucoup plus efficace lors de l'inférence ; (2) Nous présentons une loi d'échelle optimale pour l'inférence des LLMs à activation parcimonieuse ; (3) Q-Sparse est efficace dans différents contextes, y compris l'entraînement à partir de zéro, la poursuite de l'entraînement de LLMs existants et le réglage fin ; (4) Q-Sparse fonctionne à la fois pour les LLMs en précision complète et pour les LLMs à 1 bit (par exemple, BitNet b1.58). En particulier, la synergie entre BitNet b1.58 et Q-Sparse (qui peut être équipé de MoE) fournit la pierre angulaire et une voie claire pour révolutionner l'efficacité, y compris les coûts et la consommation d'énergie, des futurs LLMs.

English

We introduce, Q-Sparse, a simple yet effective approach to training sparsely-activated large language models (LLMs). Q-Sparse enables full sparsity of activations in LLMs which can bring significant efficiency gains in inference. This is achieved by applying top-K sparsification to the activations and the straight-through-estimator to the training. The key results from this work are, (1) Q-Sparse can achieve results comparable to those of baseline LLMs while being much more efficient at inference time; (2) We present an inference-optimal scaling law for sparsely-activated LLMs; (3) Q-Sparse is effective in different settings, including training-from-scratch, continue-training of off-the-shelf LLMs, and finetuning; (4) Q-Sparse works for both full-precision and 1-bit LLMs (e.g., BitNet b1.58). Particularly, the synergy of BitNet b1.58 and Q-Sparse (can be equipped with MoE) provides the cornerstone and a clear path to revolutionize the efficiency, including cost and energy consumption, of future LLMs.

Q-Sparse : Tous les grands modèles de langage peuvent être entièrement activés de manière éparse

Q-Sparse: All Large Language Models can be Fully Sparsely-Activated

papers.abstract

Support