dMoE: dLLMs met Leerbare Blok-Experts

Samenvatting

Diffusie Grote Taalmodellen (dLLMs) zijn recentelijk naar voren gekomen als een veelbelovend alternatief voor autoregressieve modellen, met concurrerende prestaties terwijl ze van nature parallel decoderen ondersteunen. Naarmate dLLMs echter steeds vaker worden geïntegreerd met Mixture-of-Experts (MoE)-architecturen om de modelcapaciteit op te schalen, ontstaat er een fundamentele mismatch tussen blokparallel decoderen en expertselectie op token-niveau. Specifiek verwerkt elke dLLM-forward-pass meerdere tokens met bidirectionele afhankelijkheden, terwijl conventionele MoE-lagen elk token onafhankelijk routeren. Deze mismatch vergroot het aantal uniek geactiveerde experts aanzienlijk, waardoor inferentie steeds meer geheugengebonden wordt. Om dit aan te pakken stellen we dMoE voor, een eenvoudig maar effectief raamwerk voor MoE op blokniveau. Het centrale idee van dMoE is om de expertverdelingen op token-niveau binnen elk blok samen te voegen tot een uniforme expertverdeling op blokniveau, die vervolgens wordt gebruikt om expertroutering op een meer samenhangende manier te sturen. Op deze manier vermindert dMoE het aantal uniek geactiveerde experts tijdens inferentie aanzienlijk zonder prestatieverlies, waardoor de geheugengebonden bottleneck wordt verminderd. Uitgebreide experimenten op verschillende benchmarks tonen de effectiviteit van dMoE aan. Gemiddeld vermindert dMoE het aantal uniek geactiveerde experts van 69,5 naar 14,6, terwijl 99,11% van de oorspronkelijke prestaties behouden blijft. Tegelijkertijd vermindert het geheugengebruik met 76,64% tot 79,84% en wordt een eind-tot-eind latentiewinst van 1,14x tot 1,66x behaald. Code is beschikbaar op: https://github.com/fscdc/dMoE

English

Diffusion Large Language Models (dLLMs) have recently emerged as a promising alternative to autoregressive models, offering competitive performance while naturally supporting parallel decoding. However, as dLLMs are increasingly integrated with Mixture-of-Experts (MoE) architectures to scale model capacity, a fundamental mismatch arises between block parallel decoding and token-level expert selection. Specifically, each dLLM forward pass processes multiple tokens with bidirectional dependencies, whereas conventional MoE layers route each token independently. This mismatch substantially increases the number of uniquely activated experts, making inference increasingly memory-bound. To address this, we propose dMoE, a simple yet effective block-level MoE framework. The central idea of dMoE is to aggregate token-level expert distributions within each block into a unified block-level expert distribution, which is then used to guide expert routing in a more coherent manner. In this way, dMoE substantially reduces the number of uniquely activated experts during inference without sacrificing performance, thereby mitigating the memory-bound bottleneck. Extensive experiments across a variety of benchmarks demonstrate the effectiveness of dMoE. On average, dMoE reduces the number of uniquely activated experts from 69.5 to 14.6 while retaining 99.11% of the original performance. Meanwhile, it reduces memory usage by 76.64% to 79.84% and achieves 1.14times to 1.66times end-to-end latency speedup. Code is available at: https://github.com/fscdc/dMoE