Le MoE post-entraîné peut ignorer la moitié des experts via l'auto-distillation

Résumé

Le MoE (Mixture-of-Experts) permet de passer à l'échelle les modèles de langage de manière efficace grâce à une activation sparse des experts, et sa variante dynamique réduit encore davantage le calcul en ajustant les experts activés en fonction de l'entrée. Les méthodes dynamiques MoE existantes reposent généralement sur un pré-entraînement à partir de zéro ou une adaptation spécifique à une tâche, laissant inexploitée la conversion pratique de MoE entièrement entraînés. Permettre une telle adaptation allégerait directement les coûts d'inférence en permettant aux tokens faciles de contourner les experts inutiles lors du déploiement. Cet article introduit ZEDA (Zero-Expert Self-Distillation Adaptation), un cadre à faible coût qui transforme les modèles MoE statiques post-entraînés en modèles dynamiques efficaces. Pour stabiliser cette conversion architecturale, ZEDA injecte des experts à sortie nulle sans paramètre dans chaque couche MoE et adapte le modèle augmenté via une auto-distillation en deux étapes, en utilisant le MoE original comme enseignant figé et en appliquant une perte d'équilibrage au niveau des groupes. Sur Qwen3-30B-A3B et GLM-4.7-Flash, évalués sur 11 bancs d'essai couvrant les mathématiques, le code et le suivi d'instructions, ZEDA élimine plus de 50 % des FLOPS liés aux experts avec une perte de précision marginale. Il surpasse la meilleure ligne de base dynamique MoE de 6,1 et 4,0 points sur les deux modèles, et offre une accélération d'inférence de bout en bout d'environ 1,20 fois.

English

Mixture-of-Experts (MoE) scales language models efficiently through sparse expert activation, and its dynamic variant further reduces computation by adjusting the activated experts in an input-dependent manner. Existing dynamic MoE methods usually rely on pre-training from scratch or task-specific adaptation, leaving the practical conversion of fully trained MoE underexplored. Enabling such adaptation would directly alleviate the inference costs by allowing easy tokens to bypass unnecessary expert during serving. This paper introduces Zero-Expert Self-Distillation Adaptation (ZEDA), a low-cost framework that transforms post-trained static MoE models into efficient dynamic ones. To stabilize this architectural conversion, ZEDA injects parameter-free zero-output experts into each MoE layer and adapts the augmented model through two-stage self-distillation, utilizing the original MoE as a frozen teacher and applying a group-level balancing loss. On Qwen3-30B-A3B and GLM-4.7-Flash across 11 benchmarks spanning math, code, and instruction following, ZEDA eliminates over 50% of expert FLOPs at marginal accuracy loss. It outperforms the strongest dynamic MoE baseline by 6.1 and 4.0 points on the two models, and delivers ~1.20times end-to-end inference speedup.