Q-Sparse: Все большие языковые модели могут быть полностью разреженно активированы.
Q-Sparse: All Large Language Models can be Fully Sparsely-Activated
July 15, 2024
Авторы: Hongyu Wang, Shuming Ma, Ruiping Wang, Furu Wei
cs.AI
Аннотация
Мы представляем Q-Sparse - простой, но эффективный подход к обучению разреженных больших языковых моделей (LLM). Q-Sparse обеспечивает полную разреженность активаций в LLM, что может привести к значительному повышению эффективности вывода. Это достигается путем применения разреживания top-K к активациям и прямого оценщика к обучению. Основные результаты этой работы: (1) Q-Sparse может достичь результатов, сравнимых с базовыми LLM, при этом значительно повышая эффективность во время вывода; (2) Мы представляем оптимальный для вывода закон масштабирования для разреженных LLM; (3) Q-Sparse эффективен в различных сценариях, включая обучение с нуля, продолжение обучения стандартных LLM и донастройку; (4) Q-Sparse работает как для полной точности, так и для 1-битных LLM (например, BitNet b1.58). Особенно синергия BitNet b1.58 и Q-Sparse (может быть оснащена MoE) представляет собой основу и ясный путь к революции в эффективности, включая стоимость и энергопотребление, будущих LLM.
English
We introduce, Q-Sparse, a simple yet effective approach to training
sparsely-activated large language models (LLMs). Q-Sparse enables full sparsity
of activations in LLMs which can bring significant efficiency gains in
inference. This is achieved by applying top-K sparsification to the activations
and the straight-through-estimator to the training. The key results from this
work are, (1) Q-Sparse can achieve results comparable to those of baseline LLMs
while being much more efficient at inference time; (2) We present an
inference-optimal scaling law for sparsely-activated LLMs; (3) Q-Sparse is
effective in different settings, including training-from-scratch,
continue-training of off-the-shelf LLMs, and finetuning; (4) Q-Sparse works for
both full-precision and 1-bit LLMs (e.g., BitNet b1.58). Particularly, the
synergy of BitNet b1.58 and Q-Sparse (can be equipped with MoE) provides the
cornerstone and a clear path to revolutionize the efficiency, including cost
and energy consumption, of future LLMs.Summary
AI-Generated Summary