ChatPaper.aiChatPaper

Q-Sparse: すべての大規模言語モデルは完全にスパース活性化可能である

Q-Sparse: All Large Language Models can be Fully Sparsely-Activated

July 15, 2024
著者: Hongyu Wang, Shuming Ma, Ruiping Wang, Furu Wei
cs.AI

要旨

Q-Sparseを紹介します。これは、スパース活性化された大規模言語モデル(LLM)を訓練するためのシンプルでありながら効果的なアプローチです。Q-Sparseは、LLMの活性化を完全にスパースにすることで、推論時の大幅な効率向上をもたらします。これは、活性化に対してtop-Kスパース化を適用し、訓練に対してストレートスルー推定量を使用することで実現されます。この研究の主な成果は以下の通りです:(1)Q-Sparseは、ベースラインのLLMと同等の結果を達成しつつ、推論時に非常に効率的であること;(2)スパース活性化されたLLMのための推論最適なスケーリング則を提示すること;(3)Q-Sparseが、ゼロからの訓練、既存のLLMの継続訓練、ファインチューニングなど、さまざまな設定で有効であること;(4)Q-Sparseが、完全精度および1ビットLLM(例:BitNet b1.58)の両方で機能すること。特に、BitNet b1.58とQ-Sparse(MoEを装備可能)の相乗効果は、将来のLLMの効率(コストとエネルギー消費を含む)を革新するための基盤と明確な道筋を提供します。
English
We introduce, Q-Sparse, a simple yet effective approach to training sparsely-activated large language models (LLMs). Q-Sparse enables full sparsity of activations in LLMs which can bring significant efficiency gains in inference. This is achieved by applying top-K sparsification to the activations and the straight-through-estimator to the training. The key results from this work are, (1) Q-Sparse can achieve results comparable to those of baseline LLMs while being much more efficient at inference time; (2) We present an inference-optimal scaling law for sparsely-activated LLMs; (3) Q-Sparse is effective in different settings, including training-from-scratch, continue-training of off-the-shelf LLMs, and finetuning; (4) Q-Sparse works for both full-precision and 1-bit LLMs (e.g., BitNet b1.58). Particularly, the synergy of BitNet b1.58 and Q-Sparse (can be equipped with MoE) provides the cornerstone and a clear path to revolutionize the efficiency, including cost and energy consumption, of future LLMs.

Summary

AI-Generated Summary

PDF233November 28, 2024