Pruning und Destillation von Mixture-of-Experts in dichte Sprachmodelle

Zusammenfassung

Die Experten-Mischung (Mixture-of-Experts, MoE) ist heute die dominierende Architektur für führende Sprachmodelle, erfordert jedoch, dass alle Expertenparameter im Speicher geladen werden, was sie für den speicherbeschränkten Einsatz weniger geeignet macht. Bestehende Kompressionsmethoden reduzieren die Anzahl der Experten, aber das Ergebnis bleibt ein MoE-Modell mit derselben grundlegenden Einschränkung. Wir stellen den ersten systematischen Rahmen für die Umwandlung eines trainierten MoE in eine standardmäßige, vollständig dichte Architektur vor: Experten werden bewertet, ausgewählt und gruppiert, dann zu einem dichten FFN verkettet und durch Wissensdestillation vom MoE-Lehrer verfeinert. Wir evaluieren 7 Bewertungs-, 5 Gruppierungs- und 2 Größenskalierungsmethoden über eine Reihe ausgewählter Expertenanzahlen auf Qwen3-30B-A3B und erhalten 350 Konfigurationen. Wir stellen fest, dass die Wahl der Bewertungsmethode den größten Einfluss hat, wobei unsere neuartige diversitätsbewusste Bewertung durchweg besser abschneidet als frühere Methoden auf Qwen3-30B-A3B, DeepSeek-V2-Lite und GPT-OSS-20B. Unter kontrolliertem Vergleich bei übereinstimmender Parameterzahl übertrifft die MoE-zu-Dicht-Umwandlung die dicht-zu-dicht-Bereinigung (Pruning) um +6,3 Prozentpunkte in der durchschnittlichen Genauigkeit nachgelagerter Aufgaben nach etwa 4 Milliarden Token Destillation bei 1,6-fach höherer Trainings-Wanduhrgeschwindigkeit.

English

Mixture-of-Experts (MoE) is now the dominant architecture for frontier language models, yet it requires all expert parameters to be loaded in memory, making it less preferable for memory-constrained deployment. Existing compression methods reduce the number of experts but the output remains an MoE model with the same fundamental limitation. We present the first systematic framework for converting a trained MoE into a standard fully dense architecture: experts are scored, selected, and grouped, then concatenated into a dense FFN and refined by knowledge distillation from the MoE teacher. We evaluate 7 scoring, 5 grouping, and 2 magnitude scaling methods across a range of selected expert counts on Qwen3-30B-A3B, yielding 350 configurations. We find that the choice of scoring method is the most impactful, with our novel diversity-aware scoring consistently outperforming prior methods on Qwen3-30B-A3B, DeepSeek-V2-Lite, and GPT-OSS-20B. Under a controlled comparison at matched parameter count, MoE-to-dense outperforms dense-to-dense pruning by +6.3 pp in average downstream accuracy after ~4B-token distillation at 1.6x faster training wall-clock speed.