Élagage et distillation de la Mixture d’experts en modèles de langage denses

Résumé

Le Mélange d’Experts (MoE) est désormais l’architecture dominante pour les modèles de langage de pointe, mais elle exige que tous les paramètres des experts soient chargés en mémoire, ce qui la rend moins adaptée aux déploiements contraints en mémoire. Les méthodes de compression existantes réduisent le nombre d’experts, mais le résultat reste un modèle MoE avec la même limitation fondamentale. Nous présentons le premier cadre systématique pour convertir un MoE entraîné en une architecture entièrement dense standard : les experts sont évalués, sélectionnés et regroupés, puis concaténés en un FFN dense et affinés par distillation de connaissances à partir du professeur MoE. Nous évaluons 7 méthodes d’évaluation, 5 méthodes de regroupement et 2 méthodes de mise à l’échelle de magnitude pour différents nombres d’experts sélectionnés sur Qwen3-30B-A3B, générant 350 configurations. Nous constatons que le choix de la méthode d’évaluation a le plus d’impact, notre nouvelle évaluation sensible à la diversité surpassant systématiquement les méthodes antérieures sur Qwen3-30B-A3B, DeepSeek-V2-Lite et GPT-OSS-20B. Dans une comparaison contrôlée à nombre de paramètres équivalent, la conversion MoE-vers-dense surpasse l’élagage dense-à-dense de +6,3 points de pourcentage en précision moyenne en aval après une distillation d’environ 4 milliards de tokens, avec une vitesse d’entraînement 1,6 fois plus rapide en temps réel.

English

Mixture-of-Experts (MoE) is now the dominant architecture for frontier language models, yet it requires all expert parameters to be loaded in memory, making it less preferable for memory-constrained deployment. Existing compression methods reduce the number of experts but the output remains an MoE model with the same fundamental limitation. We present the first systematic framework for converting a trained MoE into a standard fully dense architecture: experts are scored, selected, and grouped, then concatenated into a dense FFN and refined by knowledge distillation from the MoE teacher. We evaluate 7 scoring, 5 grouping, and 2 magnitude scaling methods across a range of selected expert counts on Qwen3-30B-A3B, yielding 350 configurations. We find that the choice of scoring method is the most impactful, with our novel diversity-aware scoring consistently outperforming prior methods on Qwen3-30B-A3B, DeepSeek-V2-Lite, and GPT-OSS-20B. Under a controlled comparison at matched parameter count, MoE-to-dense outperforms dense-to-dense pruning by +6.3 pp in average downstream accuracy after ~4B-token distillation at 1.6x faster training wall-clock speed.