ChatPaper.aiChatPaper

Турбо Sparse: достижение лучшей производительности LLM с минимальным количеством активированных параметров

Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters

June 10, 2024
Авторы: Yixin Song, Haotong Xie, Zhengyan Zhang, Bo Wen, Li Ma, Zeyu Mi, Haibo Chen
cs.AI

Аннотация

Использование разреженности активации является многообещающим подходом для значительного ускорения процесса вывода больших языковых моделей (LLM) без ущерба для производительности. Однако разреженность активации определяется функциями активации, и широко используемые, такие как SwiGLU и GeGLU, проявляют ограниченную разреженность. Простая замена этих функций на ReLU не приводит к достижению достаточной разреженности. Более того, недостаточное обучающее множество данных может дополнительно увеличить риск снижения производительности. Для решения этих проблем мы предлагаем новую функцию dReLU, которая разработана для улучшения разреженности активации LLM, вместе с высококачественным соотношением смеси обучающих данных для облегчения эффективной разреженности. Кроме того, мы используем разреженные шаблоны активации в экспертах сети прямого распространения (FFN) моделей Mixture-of-Experts (MoE) для дальнейшего повышения эффективности. Применяя наш метод разрежения нейронов к моделям Mistral и Mixtral, активируется всего 2,5 миллиарда и 4,3 миллиарда параметров на итерацию вывода соответственно, при этом достигается еще более мощная производительность модели. Результаты оценки показывают, что эта разреженность обеспечивает ускорение декодирования в 2-5 раз. Замечательно, на мобильных телефонах наш TurboSparse-Mixtral-47B достигает скорости вывода 11 токенов в секунду. Наши модели доступны по адресу https://huggingface.co/PowerInfer
English
Exploiting activation sparsity is a promising approach to significantly accelerating the inference process of large language models (LLMs) without compromising performance. However, activation sparsity is determined by activation functions, and commonly used ones like SwiGLU and GeGLU exhibit limited sparsity. Simply replacing these functions with ReLU fails to achieve sufficient sparsity. Moreover, inadequate training data can further increase the risk of performance degradation. To address these challenges, we propose a novel dReLU function, which is designed to improve LLM activation sparsity, along with a high-quality training data mixture ratio to facilitate effective sparsification. Additionally, we leverage sparse activation patterns within the Feed-Forward Network (FFN) experts of Mixture-of-Experts (MoE) models to further boost efficiency. By applying our neuron sparsification method to the Mistral and Mixtral models, only 2.5 billion and 4.3 billion parameters are activated per inference iteration, respectively, while achieving even more powerful model performance. Evaluation results demonstrate that this sparsity achieves a 2-5x decoding speedup. Remarkably, on mobile phones, our TurboSparse-Mixtral-47B achieves an inference speed of 11 tokens per second. Our models are available at https://huggingface.co/PowerInfer

Summary

AI-Generated Summary

PDF282December 8, 2024