ChatPaper.aiChatPaper

Q-Sparse: 모든 대규모 언어 모델은 완전히 희소 활성화될 수 있다

Q-Sparse: All Large Language Models can be Fully Sparsely-Activated

July 15, 2024
저자: Hongyu Wang, Shuming Ma, Ruiping Wang, Furu Wei
cs.AI

초록

우리는 희소 활성화 대규모 언어 모델(LLM)을 훈련시키기 위한 간단하면서도 효과적인 접근법인 Q-Sparse를 소개합니다. Q-Sparse는 LLM의 활성화를 완전히 희소화하여 추론 시 상당한 효율성 향상을 가져올 수 있습니다. 이는 활성화에 top-K 희소화를 적용하고 훈련 시 straight-through-estimator를 사용함으로써 달성됩니다. 이 연구의 주요 결과는 다음과 같습니다: (1) Q-Sparse는 기준 LLM과 비슷한 결과를 달성하면서도 추론 시간에 훨씬 더 효율적입니다; (2) 희소 활성화 LLM을 위한 추론 최적화 스케일링 법칙을 제시합니다; (3) Q-Sparse는 처음부터 훈련, 기존 LLM의 추가 훈련, 미세 조정 등 다양한 설정에서 효과적입니다; (4) Q-Sparse는 완전 정밀도와 1비트 LLM(예: BitNet b1.58) 모두에서 작동합니다. 특히, BitNet b1.58과 Q-Sparse(모듈형 전문가 시스템(MoE)과 결합 가능)의 시너지는 미래 LLM의 비용 및 에너지 소비를 포함한 효율성을 혁신할 수 있는 초석과 명확한 경로를 제공합니다.
English
We introduce, Q-Sparse, a simple yet effective approach to training sparsely-activated large language models (LLMs). Q-Sparse enables full sparsity of activations in LLMs which can bring significant efficiency gains in inference. This is achieved by applying top-K sparsification to the activations and the straight-through-estimator to the training. The key results from this work are, (1) Q-Sparse can achieve results comparable to those of baseline LLMs while being much more efficient at inference time; (2) We present an inference-optimal scaling law for sparsely-activated LLMs; (3) Q-Sparse is effective in different settings, including training-from-scratch, continue-training of off-the-shelf LLMs, and finetuning; (4) Q-Sparse works for both full-precision and 1-bit LLMs (e.g., BitNet b1.58). Particularly, the synergy of BitNet b1.58 and Q-Sparse (can be equipped with MoE) provides the cornerstone and a clear path to revolutionize the efficiency, including cost and energy consumption, of future LLMs.

Summary

AI-Generated Summary

PDF233November 28, 2024