Turbo Sparse: Alcanzando el rendimiento SOTA en LLM con un mínimo de parámetros activados
Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters
June 10, 2024
Autores: Yixin Song, Haotong Xie, Zhengyan Zhang, Bo Wen, Li Ma, Zeyu Mi, Haibo Chen
cs.AI
Resumen
Aprovechar la dispersión de activaciones es un enfoque prometedor para acelerar significativamente el proceso de inferencia de los modelos de lenguaje grandes (LLMs) sin comprometer su rendimiento. Sin embargo, la dispersión de activaciones está determinada por las funciones de activación, y las comúnmente utilizadas, como SwiGLU y GeGLU, muestran una dispersión limitada. Simplemente reemplazar estas funciones con ReLU no logra alcanzar una dispersión suficiente. Además, datos de entrenamiento inadecuados pueden aumentar aún más el riesgo de degradación del rendimiento. Para abordar estos desafíos, proponemos una nueva función dReLU, diseñada para mejorar la dispersión de activaciones en LLMs, junto con una proporción de mezcla de datos de entrenamiento de alta calidad para facilitar una esparsificación efectiva. Adicionalmente, aprovechamos los patrones de activación dispersa dentro de las redes Feed-Forward (FFN) de los expertos en modelos de Mezcla de Expertos (MoE) para impulsar aún más la eficiencia. Al aplicar nuestro método de esparsificación de neuronas a los modelos Mistral y Mixtral, solo se activan 2.5 mil millones y 4.3 mil millones de parámetros por iteración de inferencia, respectivamente, logrando un rendimiento del modelo aún más potente. Los resultados de evaluación demuestran que esta dispersión alcanza una aceleración de decodificación de 2-5 veces. Notablemente, en teléfonos móviles, nuestro TurboSparse-Mixtral-47B logra una velocidad de inferencia de 11 tokens por segundo. Nuestros modelos están disponibles en https://huggingface.co/PowerInfer.
English
Exploiting activation sparsity is a promising approach to significantly
accelerating the inference process of large language models (LLMs) without
compromising performance. However, activation sparsity is determined by
activation functions, and commonly used ones like SwiGLU and GeGLU exhibit
limited sparsity. Simply replacing these functions with ReLU fails to achieve
sufficient sparsity. Moreover, inadequate training data can further increase
the risk of performance degradation. To address these challenges, we propose a
novel dReLU function, which is designed to improve LLM activation sparsity,
along with a high-quality training data mixture ratio to facilitate effective
sparsification. Additionally, we leverage sparse activation patterns within the
Feed-Forward Network (FFN) experts of Mixture-of-Experts (MoE) models to
further boost efficiency. By applying our neuron sparsification method to the
Mistral and Mixtral models, only 2.5 billion and 4.3 billion parameters are
activated per inference iteration, respectively, while achieving even more
powerful model performance. Evaluation results demonstrate that this sparsity
achieves a 2-5x decoding speedup. Remarkably, on mobile phones, our
TurboSparse-Mixtral-47B achieves an inference speed of 11 tokens per second.
Our models are available at https://huggingface.co/PowerInferSummary
AI-Generated Summary