ChatPaper.aiChatPaper

Q-Sparse: Alle großen Sprachmodelle können vollständig spärlich aktiviert werden.

Q-Sparse: All Large Language Models can be Fully Sparsely-Activated

July 15, 2024
Autoren: Hongyu Wang, Shuming Ma, Ruiping Wang, Furu Wei
cs.AI

Zusammenfassung

Wir stellen Q-Sparse vor, einen einfachen, aber effektiven Ansatz zum Training von spärlich aktivierten großen Sprachmodellen (LLMs). Q-Sparse ermöglicht volle Sparsamkeit der Aktivierungen in LLMs, was signifikante Effizienzgewinne bei der Inferenz bringen kann. Dies wird durch die Anwendung von Top-K-Sparsifikation auf die Aktivierungen und den Straight-Through-Schätzer beim Training erreicht. Die wichtigsten Ergebnisse dieser Arbeit sind: (1) Q-Sparse kann Ergebnisse erzielen, die mit denen von Baseline-LLMs vergleichbar sind, während es zur Inferenzzeit viel effizienter ist; (2) Wir präsentieren ein inferenzoptimales Skalierungsgesetz für spärlich aktivierten LLMs; (3) Q-Sparse ist in verschiedenen Einstellungen wirksam, einschließlich Training von Grund auf, Fortsetzung des Trainings von Standard-LLMs und Feinabstimmung; (4) Q-Sparse funktioniert sowohl für volle Präzision als auch für 1-Bit-LLMs (z. B. BitNet b1.58). Insbesondere bietet die Synergie von BitNet b1.58 und Q-Sparse (kann mit MoE ausgestattet werden) das Fundament und einen klaren Weg, um die Effizienz, einschließlich Kosten und Energieverbrauch, zukünftiger LLMs zu revolutionieren.
English
We introduce, Q-Sparse, a simple yet effective approach to training sparsely-activated large language models (LLMs). Q-Sparse enables full sparsity of activations in LLMs which can bring significant efficiency gains in inference. This is achieved by applying top-K sparsification to the activations and the straight-through-estimator to the training. The key results from this work are, (1) Q-Sparse can achieve results comparable to those of baseline LLMs while being much more efficient at inference time; (2) We present an inference-optimal scaling law for sparsely-activated LLMs; (3) Q-Sparse is effective in different settings, including training-from-scratch, continue-training of off-the-shelf LLMs, and finetuning; (4) Q-Sparse works for both full-precision and 1-bit LLMs (e.g., BitNet b1.58). Particularly, the synergy of BitNet b1.58 and Q-Sparse (can be equipped with MoE) provides the cornerstone and a clear path to revolutionize the efficiency, including cost and energy consumption, of future LLMs.

Summary

AI-Generated Summary

PDF233November 28, 2024