Pruning en Distillatie van Mixture-of-Experts naar Dense Taalmodellen

Samenvatting

Mixture-of-Experts (MoE) is nu de dominante architectuur voor geavanceerde taalmodellen, maar vereist dat alle expertparameters in het geheugen worden geladen, waardoor het minder geschikt is voor implementatie met geheugenbeperkingen. Bestaande compressiemethoden verminderen het aantal experts, maar het resultaat blijft een MoE-model met dezelfde fundamentele beperking. Wij presenteren het eerste systematische raamwerk voor het converteren van een getraind MoE naar een standaard volledig dichte architectuur: experts worden gescoord, geselecteerd en gegroepeerd, vervolgens samengevoegd tot een dichte FFN en verfijnd door kennisdistillatie van de MoE-leraar. We evalueren 7 scorings-, 5 groeperings- en 2 magnitudeschalingsmethoden over een reeks geselecteerde expertantallen op Qwen3-30B-A3B, wat 350 configuraties oplevert. We vinden dat de keuze van de scoringsmethode de grootste impact heeft, waarbij onze nieuwe diversiteitsbewuste scoringsmethode consequent beter presteert dan eerdere methoden op Qwen3-30B-A3B, DeepSeek-V2-Lite en GPT-OSS-20B. Onder een gecontroleerde vergelijking bij een gelijk aantal parameters presteert MoE-naar-dicht beter dan dicht-naar-dicht snoeien met +6,3 procentpunt in gemiddelde downstream-nauwkeurigheid na ~4B-token distillatie bij 1,6x snellere wandkloktijd tijdens training.

English

Mixture-of-Experts (MoE) is now the dominant architecture for frontier language models, yet it requires all expert parameters to be loaded in memory, making it less preferable for memory-constrained deployment. Existing compression methods reduce the number of experts but the output remains an MoE model with the same fundamental limitation. We present the first systematic framework for converting a trained MoE into a standard fully dense architecture: experts are scored, selected, and grouped, then concatenated into a dense FFN and refined by knowledge distillation from the MoE teacher. We evaluate 7 scoring, 5 grouping, and 2 magnitude scaling methods across a range of selected expert counts on Qwen3-30B-A3B, yielding 350 configurations. We find that the choice of scoring method is the most impactful, with our novel diversity-aware scoring consistently outperforming prior methods on Qwen3-30B-A3B, DeepSeek-V2-Lite, and GPT-OSS-20B. Under a controlled comparison at matched parameter count, MoE-to-dense outperforms dense-to-dense pruning by +6.3 pp in average downstream accuracy after ~4B-token distillation at 1.6x faster training wall-clock speed.