Q-Sparse : Tous les grands modèles de langage peuvent être entièrement activés de manière éparse
Q-Sparse: All Large Language Models can be Fully Sparsely-Activated
July 15, 2024
Auteurs: Hongyu Wang, Shuming Ma, Ruiping Wang, Furu Wei
cs.AI
Résumé
Nous présentons Q-Sparse, une approche simple mais efficace pour entraîner des modèles de langage de grande taille (LLMs) à activation parcimonieuse. Q-Sparse permet une parcimonie totale des activations dans les LLMs, ce qui peut apporter des gains significatifs en efficacité lors de l'inférence. Cela est réalisé en appliquant une sparsification top-K aux activations et l'estimateur direct (straight-through-estimator) à l'entraînement. Les principaux résultats de ce travail sont : (1) Q-Sparse peut atteindre des résultats comparables à ceux des LLMs de référence tout en étant beaucoup plus efficace lors de l'inférence ; (2) Nous présentons une loi d'échelle optimale pour l'inférence des LLMs à activation parcimonieuse ; (3) Q-Sparse est efficace dans différents contextes, y compris l'entraînement à partir de zéro, la poursuite de l'entraînement de LLMs existants et le réglage fin ; (4) Q-Sparse fonctionne à la fois pour les LLMs en précision complète et pour les LLMs à 1 bit (par exemple, BitNet b1.58). En particulier, la synergie entre BitNet b1.58 et Q-Sparse (qui peut être équipé de MoE) fournit la pierre angulaire et une voie claire pour révolutionner l'efficacité, y compris les coûts et la consommation d'énergie, des futurs LLMs.
English
We introduce, Q-Sparse, a simple yet effective approach to training
sparsely-activated large language models (LLMs). Q-Sparse enables full sparsity
of activations in LLMs which can bring significant efficiency gains in
inference. This is achieved by applying top-K sparsification to the activations
and the straight-through-estimator to the training. The key results from this
work are, (1) Q-Sparse can achieve results comparable to those of baseline LLMs
while being much more efficient at inference time; (2) We present an
inference-optimal scaling law for sparsely-activated LLMs; (3) Q-Sparse is
effective in different settings, including training-from-scratch,
continue-training of off-the-shelf LLMs, and finetuning; (4) Q-Sparse works for
both full-precision and 1-bit LLMs (e.g., BitNet b1.58). Particularly, the
synergy of BitNet b1.58 and Q-Sparse (can be equipped with MoE) provides the
cornerstone and a clear path to revolutionize the efficiency, including cost
and energy consumption, of future LLMs.Summary
AI-Generated Summary