Post-trainierte MoE kann die Hälfte der Experten mittels Selbst-Destillation überspringen.

Zusammenfassung

Mixture-of-Experts (MoE) skaliert Sprachmodelle effizient durch spärliche Expertenaktivierung, und seine dynamische Variante reduziert die Berechnung weiter, indem sie die aktivierten Experten eingabeabhängig anpasst. Bestehende dynamische MoE-Methoden basieren meist auf einem Training von Grund auf oder aufgabenspezifischer Anpassung, während die praktische Umwandlung vollständig trainierter MoE-Modelle noch wenig erforscht ist. Eine solche Anpassung würde die Inferenzkosten direkt senken, indem einfache Token während des Servings unnötige Experten umgehen können. Diese Arbeit stellt Zero-Expert Self-Distillation Adaptation (ZEDA) vor, ein kostengünstiges Framework, das nachtrainierte statische MoE-Modelle in effiziente dynamische Modelle umwandelt. Zur Stabilisierung dieser Architekturumwandlung fügt ZEDA parameterfreie Nullausgabe-Experten in jede MoE-Schicht ein und passt das erweiterte Modell durch zweistufige Selbst-Destillation an, wobei das ursprüngliche MoE-Modell als eingefrorener Lehrer dient und ein Balancing-Verlust auf Gruppenebene angewendet wird. Auf Qwen3-30B-A3B und GLM-4.7-Flash über 11 Benchmarks aus den Bereichen Mathematik, Code und Anweisungsbefolgung eliminiert ZEDA über 50% der Experten-FLOPs bei vernachlässigbarem Genauigkeitsverlust. Es übertrifft die stärkste dynamische MoE-Baseline um 6,1 bzw. 4,0 Punkte auf den beiden Modellen und erzielt eine etwa 1,20-fache End-to-End-Inferenzbeschleunigung.

English

Mixture-of-Experts (MoE) scales language models efficiently through sparse expert activation, and its dynamic variant further reduces computation by adjusting the activated experts in an input-dependent manner. Existing dynamic MoE methods usually rely on pre-training from scratch or task-specific adaptation, leaving the practical conversion of fully trained MoE underexplored. Enabling such adaptation would directly alleviate the inference costs by allowing easy tokens to bypass unnecessary expert during serving. This paper introduces Zero-Expert Self-Distillation Adaptation (ZEDA), a low-cost framework that transforms post-trained static MoE models into efficient dynamic ones. To stabilize this architectural conversion, ZEDA injects parameter-free zero-output experts into each MoE layer and adapts the augmented model through two-stage self-distillation, utilizing the original MoE as a frozen teacher and applying a group-level balancing loss. On Qwen3-30B-A3B and GLM-4.7-Flash across 11 benchmarks spanning math, code, and instruction following, ZEDA eliminates over 50% of expert FLOPs at marginal accuracy loss. It outperforms the strongest dynamic MoE baseline by 6.1 and 4.0 points on the two models, and delivers ~1.20times end-to-end inference speedup.