Post-getrainde MoE kan de helft van de experts overslaan via zelfdestillatie

Samenvatting

Mixture-of-Experts (MoE) schaalt taalmodellen efficiënt door schaarse expertactivering, en de dynamische variant vermindert verdere berekening door de geactiveerde experts aan te passen afhankelijk van de invoer. Bestaande dynamische MoE-methoden vertrouwen meestal op training vanaf nul of taakspecifieke aanpassing, waardoor de praktische conversie van volledig getrainde MoE onderbelicht blijft. Het mogelijk maken van een dergelijke aanpassing zou de inferentiekosten direct verlichten door makkelijke tokens onnodige experts te laten omzeilen tijdens het gebruik. Dit artikel introduceert Zero-Expert Self-Distillation Adaptation (ZEDA), een goedkoop raamwerk dat post-getrainde statische MoE-modellen omzet in efficiënte dynamische modellen. Om deze architecturale conversie te stabiliseren, injecteert ZEDA parameter-vrije nul-uitvoer experts in elke MoE-laag en past het het uitgebreide model aan via tweefasen zelfdestillatie, waarbij de originele MoE wordt gebruikt als een bevroren docent en een balanceringsverlies op groepsniveau wordt toegepast. Op Qwen3-30B-A3B en GLM-4.7-Flash over 11 benchmarks verspreid over wiskunde, code en instructievolging, elimineert ZEDA meer dan 50% van de expert FLOPs met marginaal nauwkeurigheidsverlies. Het presteert beter dan de sterkste dynamische MoE-baseline met 6,1 en 4,0 punten op de twee modellen, en levert een ~1,20 keer end-to-end inferentiesnelheidsverhoging.

English

Mixture-of-Experts (MoE) scales language models efficiently through sparse expert activation, and its dynamic variant further reduces computation by adjusting the activated experts in an input-dependent manner. Existing dynamic MoE methods usually rely on pre-training from scratch or task-specific adaptation, leaving the practical conversion of fully trained MoE underexplored. Enabling such adaptation would directly alleviate the inference costs by allowing easy tokens to bypass unnecessary expert during serving. This paper introduces Zero-Expert Self-Distillation Adaptation (ZEDA), a low-cost framework that transforms post-trained static MoE models into efficient dynamic ones. To stabilize this architectural conversion, ZEDA injects parameter-free zero-output experts into each MoE layer and adapts the augmented model through two-stage self-distillation, utilizing the original MoE as a frozen teacher and applying a group-level balancing loss. On Qwen3-30B-A3B and GLM-4.7-Flash across 11 benchmarks spanning math, code, and instruction following, ZEDA eliminates over 50% of expert FLOPs at marginal accuracy loss. It outperforms the strongest dynamic MoE baseline by 6.1 and 4.0 points on the two models, and delivers ~1.20times end-to-end inference speedup.