Turbo Sparse: Alcançando Desempenho SOTA em LLMs com Parâmetros Mínimos Ativados
Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters
June 10, 2024
Autores: Yixin Song, Haotong Xie, Zhengyan Zhang, Bo Wen, Li Ma, Zeyu Mi, Haibo Chen
cs.AI
Resumo
Explorar a esparsidade de ativação é uma abordagem promissora para acelerar significativamente o processo de inferência de grandes modelos de linguagem (LLMs) sem comprometer o desempenho. No entanto, a esparsidade de ativação é determinada pelas funções de ativação, e as comumente utilizadas, como SwiGLU e GeGLU, exibem esparsidade limitada. Simplesmente substituir essas funções por ReLU não é suficiente para alcançar uma esparsidade adequada. Além disso, dados de treinamento inadequados podem aumentar ainda mais o risco de degradação de desempenho. Para enfrentar esses desafios, propomos uma nova função dReLU, projetada para melhorar a esparsidade de ativação em LLMs, juntamente com uma proporção de mistura de dados de treinamento de alta qualidade para facilitar a esparsificação eficaz. Adicionalmente, aproveitamos padrões de ativação esparsa dentro dos especialistas da Rede Feed-Forward (FFN) em modelos de Mistura de Especialistas (MoE) para aumentar ainda mais a eficiência. Ao aplicar nosso método de esparsificação de neurônios aos modelos Mistral e Mixtral, apenas 2,5 bilhões e 4,3 bilhões de parâmetros são ativados por iteração de inferência, respectivamente, enquanto alcançamos um desempenho de modelo ainda mais poderoso. Os resultados de avaliação demonstram que essa esparsidade alcança uma aceleração de decodificação de 2 a 5 vezes. Notavelmente, em telefones móveis, nosso TurboSparse-Mixtral-47B alcança uma velocidade de inferência de 11 tokens por segundo. Nossos modelos estão disponíveis em https://huggingface.co/PowerInfer.
English
Exploiting activation sparsity is a promising approach to significantly
accelerating the inference process of large language models (LLMs) without
compromising performance. However, activation sparsity is determined by
activation functions, and commonly used ones like SwiGLU and GeGLU exhibit
limited sparsity. Simply replacing these functions with ReLU fails to achieve
sufficient sparsity. Moreover, inadequate training data can further increase
the risk of performance degradation. To address these challenges, we propose a
novel dReLU function, which is designed to improve LLM activation sparsity,
along with a high-quality training data mixture ratio to facilitate effective
sparsification. Additionally, we leverage sparse activation patterns within the
Feed-Forward Network (FFN) experts of Mixture-of-Experts (MoE) models to
further boost efficiency. By applying our neuron sparsification method to the
Mistral and Mixtral models, only 2.5 billion and 4.3 billion parameters are
activated per inference iteration, respectively, while achieving even more
powerful model performance. Evaluation results demonstrate that this sparsity
achieves a 2-5x decoding speedup. Remarkably, on mobile phones, our
TurboSparse-Mixtral-47B achieves an inference speed of 11 tokens per second.
Our models are available at https://huggingface.co/PowerInfer