BlockFFN: Op weg naar Mixture-of-Experts die vriendelijk is voor versnelling aan de eindzijde met Chunk-niveau Activatie Sparsity

Samenvatting

Om de computationele belasting van grote taalmodelen (LLM's) te verlichten, hebben architecturen met activatiesparsheid, vertegenwoordigd door mixture-of-experts (MoE), steeds meer aandacht getrokken. Echter, de niet-differentieerbare en onflexibele routering van standaard MoE schaadt de modelprestaties. Bovendien, hoewel elk token slechts een paar parameters activeert, vertonen deze spaarzaam geactiveerde architecturen een lage chunk-level sparsheid, wat aangeeft dat de vereniging van meerdere opeenvolgende tokens een groot deel van de parameters activeert. Zo'n sparsheidspatroon is onvriendelijk voor versnelling onder laagresource-omstandigheden (bijv. end-side apparaten) en incompatibel met hoofdstroom versnellingsmethoden (bijv. speculatieve decodering). Om deze uitdagingen aan te pakken, introduceren we een nieuwe MoE-architectuur, BlockFFN, evenals efficiënte trainings- en implementatietechnieken. Specifiek gebruiken we een router die ReLU-activering en RMSNorm integreert voor differentieerbare en flexibele routering. Vervolgens, om zowel token-level sparsheid (TLS) als chunk-level sparsheid (CLS) te bevorderen, zijn CLS-bewuste trainingsdoelen ontworpen, waardoor BlockFFN meer versnellingsvriendelijk wordt. Ten slotte implementeren we efficiënte versnellingskernels, waarbij voor het eerst activatiesparsheid en speculatieve decodering worden gecombineerd. De experimentele resultaten tonen de superieure prestaties van BlockFFN aan ten opzichte van andere MoE-baselines, met meer dan 80% TLS en 70% 8-token CLS. Onze kernels behalen tot 3,67 keer versnelling op echte end-side apparaten in vergelijking met dichte modellen. Alle codes en checkpoints zijn openbaar beschikbaar (https://github.com/thunlp/BlockFFN).

English

To alleviate the computational burden of large language models (LLMs), architectures with activation sparsity, represented by mixture-of-experts (MoE), have attracted increasing attention. However, the non-differentiable and inflexible routing of vanilla MoE hurts model performance. Moreover, while each token activates only a few parameters, these sparsely-activated architectures exhibit low chunk-level sparsity, indicating that the union of multiple consecutive tokens activates a large ratio of parameters. Such a sparsity pattern is unfriendly for acceleration under low-resource conditions (e.g., end-side devices) and incompatible with mainstream acceleration techniques (e.g., speculative decoding). To address these challenges, we introduce a novel MoE architecture, BlockFFN, as well as its efficient training and deployment techniques. Specifically, we use a router integrating ReLU activation and RMSNorm for differentiable and flexible routing. Next, to promote both token-level sparsity (TLS) and chunk-level sparsity (CLS), CLS-aware training objectives are designed, making BlockFFN more acceleration-friendly. Finally, we implement efficient acceleration kernels, combining activation sparsity and speculative decoding for the first time. The experimental results demonstrate the superior performance of BlockFFN over other MoE baselines, achieving over 80% TLS and 70% 8-token CLS. Our kernels achieve up to 3.67times speedup on real end-side devices than dense models. All codes and checkpoints are available publicly (https://github.com/thunlp/BlockFFN).

BlockFFN: Op weg naar Mixture-of-Experts die vriendelijk is voor versnelling aan de eindzijde met Chunk-niveau Activatie Sparsity

BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity

Samenvatting

Support