ChatPaper.aiChatPaper

Q-Esparso: Todos los Modelos de Lenguaje Grandes pueden ser Totalmente Activados de forma Esparsa.

Q-Sparse: All Large Language Models can be Fully Sparsely-Activated

July 15, 2024
Autores: Hongyu Wang, Shuming Ma, Ruiping Wang, Furu Wei
cs.AI

Resumen

Presentamos Q-Sparse, un enfoque simple pero efectivo para entrenar modelos de lenguaje grandes (LLMs) con activación dispersa. Q-Sparse permite la plena dispersión de activaciones en LLMs, lo que puede aportar ganancias significativas en eficiencia en la inferencia. Esto se logra aplicando la esparsificación top-K a las activaciones y el estimador de paso directo al entrenamiento. Los resultados clave de este trabajo son: (1) Q-Sparse puede lograr resultados comparables a los de LLMs de referencia siendo mucho más eficiente en el tiempo de inferencia; (2) Presentamos una ley de escala óptima para la inferencia de LLMs con activación dispersa; (3) Q-Sparse es efectivo en diferentes escenarios, incluyendo el entrenamiento desde cero, la continuación del entrenamiento de LLMs listos para usar y el ajuste fino; (4) Q-Sparse funciona tanto para LLMs de precisión completa como para LLMs de 1 bit (por ejemplo, BitNet b1.58). En particular, la sinergia de BitNet b1.58 y Q-Sparse (que puede estar equipado con MoE) proporciona el fundamento y un camino claro para revolucionar la eficiencia, incluyendo costos y consumo de energía, de los futuros LLMs.
English
We introduce, Q-Sparse, a simple yet effective approach to training sparsely-activated large language models (LLMs). Q-Sparse enables full sparsity of activations in LLMs which can bring significant efficiency gains in inference. This is achieved by applying top-K sparsification to the activations and the straight-through-estimator to the training. The key results from this work are, (1) Q-Sparse can achieve results comparable to those of baseline LLMs while being much more efficient at inference time; (2) We present an inference-optimal scaling law for sparsely-activated LLMs; (3) Q-Sparse is effective in different settings, including training-from-scratch, continue-training of off-the-shelf LLMs, and finetuning; (4) Q-Sparse works for both full-precision and 1-bit LLMs (e.g., BitNet b1.58). Particularly, the synergy of BitNet b1.58 and Q-Sparse (can be equipped with MoE) provides the cornerstone and a clear path to revolutionize the efficiency, including cost and energy consumption, of future LLMs.

Summary

AI-Generated Summary

PDF233November 28, 2024