事後学習済みMoEは自己蒸留により半数の専門家をスキップできる
Post-Trained MoE Can Skip Half Experts via Self-Distillation
May 18, 2026
著者: Xingtai Lv, Li Sheng, Kaiyan Zhang, Yichen You, Siyan Gao, Xueheng Luo, Yuxin Zuo, Yuchen Fan, Junlin Yang, Ganqu Cui, Bingning Wang, Fan Yang, Youbang Sun, Ning Ding, Bowen Zhou
cs.AI
要旨
Mixture-of-Experts(MoE)は、スパースなエキスパート活性化により言語モデルを効率的にスケールし、さらにその動的バリアントは入力に応じて活性化するエキスパートを調整することで計算量を削減する。既存の動的MoE手法は通常、ゼロからの事前学習やタスク固有の適応に依存しており、完全に訓練されたMoEの実用的な変換は未開拓のままである。このような適応を可能にすれば、容易なトークンが推論時に不要なエキスパートをバイパスできるようになり、推論コストを直接軽減できる。本稿では、Zero-Expert Self-Distillation Adaptation(ZEDA)を導入する。これは、訓練済みの静的MoEモデルを効率的な動的モデルに変換する低コストなフレームワークである。このアーキテクチャ変換を安定化するため、ZEDAは各MoE層にパラメータフリーのゼロ出力エキスパートを注入し、拡張されたモデルを2段階の自己蒸留を通じて適応させる。その際、元のMoEを凍結された教師として利用し、グループレベルのバランス損失を適用する。Qwen3-30B-A3BとGLM-4.7-Flashにおいて、数学、コード、指示追従を網羅する11のベンチマークで、ZEDAはわずかな精度低下でエキスパートのFLOPsの50%以上を削減する。これは、2つのモデルで最強の動的MoEベースラインをそれぞれ6.1ポイントおよび4.0ポイント上回り、エンドツーエンドの推論速度を約1.20倍向上させる。
English
Mixture-of-Experts (MoE) scales language models efficiently through sparse expert activation, and its dynamic variant further reduces computation by adjusting the activated experts in an input-dependent manner. Existing dynamic MoE methods usually rely on pre-training from scratch or task-specific adaptation, leaving the practical conversion of fully trained MoE underexplored. Enabling such adaptation would directly alleviate the inference costs by allowing easy tokens to bypass unnecessary expert during serving. This paper introduces Zero-Expert Self-Distillation Adaptation (ZEDA), a low-cost framework that transforms post-trained static MoE models into efficient dynamic ones. To stabilize this architectural conversion, ZEDA injects parameter-free zero-output experts into each MoE layer and adapts the augmented model through two-stage self-distillation, utilizing the original MoE as a frozen teacher and applying a group-level balancing loss. On Qwen3-30B-A3B and GLM-4.7-Flash across 11 benchmarks spanning math, code, and instruction following, ZEDA eliminates over 50% of expert FLOPs at marginal accuracy loss. It outperforms the strongest dynamic MoE baseline by 6.1 and 4.0 points on the two models, and delivers ~1.20times end-to-end inference speedup.