BlockFFN: Verso una Mixture-of-Experts Amica dell'Accelerazione Lato Fine con Sparsità di Attivazione a Livello di Blocco

Abstract

Per alleviare il carico computazionale dei grandi modelli linguistici (LLM), le architetture con sparsità delle attivazioni, rappresentate dalla miscela di esperti (MoE), hanno attirato un'attenzione crescente. Tuttavia, il routing non differenziabile e inflessibile del MoE standard compromette le prestazioni del modello. Inoltre, sebbene ogni token attivi solo pochi parametri, queste architetture a attivazione sparsa mostrano una bassa sparsità a livello di blocco, indicando che l'unione di più token consecutivi attiva una grande proporzione di parametri. Tale schema di sparsità è poco adatto per l'accelerazione in condizioni di risorse limitate (ad esempio, dispositivi lato utente) e incompatibile con le principali tecniche di accelerazione (ad esempio, il decoding speculativo). Per affrontare queste sfide, introduciamo una nuova architettura MoE, BlockFFN, insieme a tecniche efficienti di addestramento e distribuzione. Nello specifico, utilizziamo un router che integra l'attivazione ReLU e RMSNorm per un routing differenziabile e flessibile. Successivamente, per promuovere sia la sparsità a livello di token (TLS) che a livello di blocco (CLS), vengono progettati obiettivi di addestramento consapevoli della CLS, rendendo BlockFFN più adatto all'accelerazione. Infine, implementiamo kernel di accelerazione efficienti, combinando per la prima volta la sparsità delle attivazioni e il decoding speculativo. I risultati sperimentali dimostrano la prestazione superiore di BlockFFN rispetto ad altre baseline MoE, raggiungendo oltre l'80% di TLS e il 70% di CLS a 8 token. I nostri kernel ottengono un'accelerazione fino a 3,67 volte rispetto ai modelli densi su dispositivi reali lato utente. Tutti i codici e i checkpoint sono disponibili pubblicamente (https://github.com/thunlp/BlockFFN).

English

To alleviate the computational burden of large language models (LLMs), architectures with activation sparsity, represented by mixture-of-experts (MoE), have attracted increasing attention. However, the non-differentiable and inflexible routing of vanilla MoE hurts model performance. Moreover, while each token activates only a few parameters, these sparsely-activated architectures exhibit low chunk-level sparsity, indicating that the union of multiple consecutive tokens activates a large ratio of parameters. Such a sparsity pattern is unfriendly for acceleration under low-resource conditions (e.g., end-side devices) and incompatible with mainstream acceleration techniques (e.g., speculative decoding). To address these challenges, we introduce a novel MoE architecture, BlockFFN, as well as its efficient training and deployment techniques. Specifically, we use a router integrating ReLU activation and RMSNorm for differentiable and flexible routing. Next, to promote both token-level sparsity (TLS) and chunk-level sparsity (CLS), CLS-aware training objectives are designed, making BlockFFN more acceleration-friendly. Finally, we implement efficient acceleration kernels, combining activation sparsity and speculative decoding for the first time. The experimental results demonstrate the superior performance of BlockFFN over other MoE baselines, achieving over 80% TLS and 70% 8-token CLS. Our kernels achieve up to 3.67times speedup on real end-side devices than dense models. All codes and checkpoints are available publicly (https://github.com/thunlp/BlockFFN).

BlockFFN: Verso una Mixture-of-Experts Amica dell'Accelerazione Lato Fine con Sparsità di Attivazione a Livello di Blocco

BlockFFN: Towards End-Side Acceleration-Friendly Mixture-of-Experts with Chunk-Level Activation Sparsity

Abstract

Support