BlockFFN: В направлении дружественной к ускорению на стороне конечного устройства смеси экспертов с разреженностью активаций на уровне блоков

Аннотация

Для снижения вычислительной нагрузки больших языковых моделей (LLM) архитектуры с разреженностью активаций, представленные смесью экспертов (MoE), привлекают все больше внимания. Однако недифференцируемая и негибкая маршрутизация в классической MoE ухудшает производительность модели. Кроме того, хотя каждый токен активирует лишь небольшое количество параметров, такие разреженно-активируемые архитектуры демонстрируют низкую разреженность на уровне блоков, что указывает на то, что объединение нескольких последовательных токенов активирует значительную долю параметров. Такой паттерн разреженности не подходит для ускорения в условиях ограниченных ресурсов (например, на устройствах конечного пользователя) и несовместим с основными методами ускорения (например, спекулятивным декодированием). Для решения этих проблем мы представляем новую архитектуру MoE, BlockFFN, а также эффективные методы ее обучения и развертывания. В частности, мы используем маршрутизатор, интегрирующий активацию ReLU и RMSNorm, для дифференцируемой и гибкой маршрутизации. Далее, для повышения как разреженности на уровне токенов (TLS), так и разреженности на уровне блоков (CLS), разработаны цели обучения, учитывающие CLS, что делает BlockFFN более подходящим для ускорения. Наконец, мы реализуем эффективные ядра ускорения, впервые объединяя разреженность активаций и спекулятивное декодирование. Результаты экспериментов демонстрируют превосходство BlockFFN над другими базовыми MoE, достигая более 80% TLS и 70% CLS для 8 токенов. Наши ядра обеспечивают ускорение до 3,67 раз на реальных устройствах конечного пользователя по сравнению с плотными моделями. Все коды и контрольные точки доступны публично (https://github.com/thunlp/BlockFFN).

English

To alleviate the computational burden of large language models (LLMs), architectures with activation sparsity, represented by mixture-of-experts (MoE), have attracted increasing attention. However, the non-differentiable and inflexible routing of vanilla MoE hurts model performance. Moreover, while each token activates only a few parameters, these sparsely-activated architectures exhibit low chunk-level sparsity, indicating that the union of multiple consecutive tokens activates a large ratio of parameters. Such a sparsity pattern is unfriendly for acceleration under low-resource conditions (e.g., end-side devices) and incompatible with mainstream acceleration techniques (e.g., speculative decoding). To address these challenges, we introduce a novel MoE architecture, BlockFFN, as well as its efficient training and deployment techniques. Specifically, we use a router integrating ReLU activation and RMSNorm for differentiable and flexible routing. Next, to promote both token-level sparsity (TLS) and chunk-level sparsity (CLS), CLS-aware training objectives are designed, making BlockFFN more acceleration-friendly. Finally, we implement efficient acceleration kernels, combining activation sparsity and speculative decoding for the first time. The experimental results demonstrate the superior performance of BlockFFN over other MoE baselines, achieving over 80% TLS and 70% 8-token CLS. Our kernels achieve up to 3.67times speedup on real end-side devices than dense models. All codes and checkpoints are available publicly (https://github.com/thunlp/BlockFFN).

BlockFFN: В направлении дружественной к ускорению на стороне конечного устройства смеси экспертов с разреженностью активаций на уровне блоков

BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity

Аннотация

Support