ChatPaper.aiChatPaper

Q-Esparsa: Todos os Modelos de Linguagem Grandes podem ser Totalmente Ativados de Forma Esparsa

Q-Sparse: All Large Language Models can be Fully Sparsely-Activated

July 15, 2024
Autores: Hongyu Wang, Shuming Ma, Ruiping Wang, Furu Wei
cs.AI

Resumo

Apresentamos o Q-Sparse, uma abordagem simples, porém eficaz, para treinar modelos de linguagem grandes (LLMs) com ativação esparsa. O Q-Sparse permite total esparsidade de ativações em LLMs, o que pode trazer ganhos significativos de eficiência na inferência. Isso é alcançado aplicando esparsificação top-K às ativações e o estimador straight-through ao treinamento. Os principais resultados deste trabalho são: (1) o Q-Sparse pode alcançar resultados comparáveis aos dos LLMs de referência, sendo muito mais eficiente no tempo de inferência; (2) Apresentamos uma lei de escala ótima para inferência de LLMs com ativação esparsa; (3) O Q-Sparse é eficaz em diferentes configurações, incluindo treinamento do zero, continuação do treinamento de LLMs prontos para uso e ajuste fino; (4) O Q-Sparse funciona tanto para LLMs de precisão total quanto para LLMs de 1 bit (por exemplo, BitNet b1.58). Em particular, a sinergia entre o BitNet b1.58 e o Q-Sparse (que pode ser equipado com MoE) fornece a base e um caminho claro para revolucionar a eficiência, incluindo custo e consumo de energia, dos futuros LLMs.
English
We introduce, Q-Sparse, a simple yet effective approach to training sparsely-activated large language models (LLMs). Q-Sparse enables full sparsity of activations in LLMs which can bring significant efficiency gains in inference. This is achieved by applying top-K sparsification to the activations and the straight-through-estimator to the training. The key results from this work are, (1) Q-Sparse can achieve results comparable to those of baseline LLMs while being much more efficient at inference time; (2) We present an inference-optimal scaling law for sparsely-activated LLMs; (3) Q-Sparse is effective in different settings, including training-from-scratch, continue-training of off-the-shelf LLMs, and finetuning; (4) Q-Sparse works for both full-precision and 1-bit LLMs (e.g., BitNet b1.58). Particularly, the synergy of BitNet b1.58 and Q-Sparse (can be equipped with MoE) provides the cornerstone and a clear path to revolutionize the efficiency, including cost and energy consumption, of future LLMs.
PDF233November 28, 2024