BlockFFN: Verso una Mixture-of-Experts Amica dell'Accelerazione Lato Fine con Sparsità di Attivazione a Livello di Blocco
BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity
July 11, 2025
Autori: Chenyang Song, Weilin Zhao, Xu Han, Chaojun Xiao, Yingfa Chen, Yuxuan Li, Zhiyuan Liu, Maosong Sun
cs.AI
Abstract
Per alleviare il carico computazionale dei grandi modelli linguistici (LLM), le architetture con sparsità delle attivazioni, rappresentate dalla miscela di esperti (MoE), hanno attirato un'attenzione crescente. Tuttavia, il routing non differenziabile e inflessibile del MoE standard compromette le prestazioni del modello. Inoltre, sebbene ogni token attivi solo pochi parametri, queste architetture a attivazione sparsa mostrano una bassa sparsità a livello di blocco, indicando che l'unione di più token consecutivi attiva una grande proporzione di parametri. Tale schema di sparsità è poco adatto per l'accelerazione in condizioni di risorse limitate (ad esempio, dispositivi lato utente) e incompatibile con le principali tecniche di accelerazione (ad esempio, il decoding speculativo). Per affrontare queste sfide, introduciamo una nuova architettura MoE, BlockFFN, insieme a tecniche efficienti di addestramento e distribuzione. Nello specifico, utilizziamo un router che integra l'attivazione ReLU e RMSNorm per un routing differenziabile e flessibile. Successivamente, per promuovere sia la sparsità a livello di token (TLS) che a livello di blocco (CLS), vengono progettati obiettivi di addestramento consapevoli della CLS, rendendo BlockFFN più adatto all'accelerazione. Infine, implementiamo kernel di accelerazione efficienti, combinando per la prima volta la sparsità delle attivazioni e il decoding speculativo. I risultati sperimentali dimostrano la prestazione superiore di BlockFFN rispetto ad altre baseline MoE, raggiungendo oltre l'80% di TLS e il 70% di CLS a 8 token. I nostri kernel ottengono un'accelerazione fino a 3,67 volte rispetto ai modelli densi su dispositivi reali lato utente. Tutti i codici e i checkpoint sono disponibili pubblicamente (https://github.com/thunlp/BlockFFN).
English
To alleviate the computational burden of large language models (LLMs),
architectures with activation sparsity, represented by mixture-of-experts
(MoE), have attracted increasing attention. However, the non-differentiable and
inflexible routing of vanilla MoE hurts model performance. Moreover, while each
token activates only a few parameters, these sparsely-activated architectures
exhibit low chunk-level sparsity, indicating that the union of multiple
consecutive tokens activates a large ratio of parameters. Such a sparsity
pattern is unfriendly for acceleration under low-resource conditions (e.g.,
end-side devices) and incompatible with mainstream acceleration techniques
(e.g., speculative decoding). To address these challenges, we introduce a novel
MoE architecture, BlockFFN, as well as its efficient training and deployment
techniques. Specifically, we use a router integrating ReLU activation and
RMSNorm for differentiable and flexible routing. Next, to promote both
token-level sparsity (TLS) and chunk-level sparsity (CLS), CLS-aware training
objectives are designed, making BlockFFN more acceleration-friendly. Finally,
we implement efficient acceleration kernels, combining activation sparsity and
speculative decoding for the first time. The experimental results demonstrate
the superior performance of BlockFFN over other MoE baselines, achieving over
80% TLS and 70% 8-token CLS. Our kernels achieve up to 3.67times speedup on
real end-side devices than dense models. All codes and checkpoints are
available publicly (https://github.com/thunlp/BlockFFN).