사후 학습된 MoE 모델이 자기 증류를 통해 절반의 전문가를 생략할 수 있다
Post-Trained MoE Can Skip Half Experts via Self-Distillation
May 18, 2026
저자: Xingtai Lv, Li Sheng, Kaiyan Zhang, Yichen You, Siyan Gao, Xueheng Luo, Yuxin Zuo, Yuchen Fan, Junlin Yang, Ganqu Cui, Bingning Wang, Fan Yang, Youbang Sun, Ning Ding, Bowen Zhou
cs.AI
초록
전문가 혼합(MoE)은 희소 전문가 활성화를 통해 언어 모델을 효율적으로 확장하며, 동적 변형은 입력에 따라 활성화된 전문가를 조정함으로써 계산량을 더욱 줄인다. 기존의 동적 MoE 방법은 일반적으로 처음부터 사전 학습하거나 작업별 적응에 의존하며, 완전히 학습된 MoE의 실용적 변환은 충분히 탐구되지 않았다. 이러한 적응을 가능하게 하면 서빙 중 쉬운 토큰이 불필요한 전문가를 건너뛰도록 하여 추론 비용을 직접적으로 완화할 수 있다. 본 논문은 사전 학습된 정적 MoE 모델을 효율적인 동적 모델로 변환하는 저비용 프레임워크인 ZEDA(제로 전문가 자기 증류 적응)를 소개한다. 이 구조적 변환을 안정화하기 위해, ZEDA는 각 MoE 계층에 매개변수가 없는 제로 출력 전문가를 주입하고, 원본 MoE를 고정된 교사로 활용하며 그룹 수준 균형 손실을 적용하여 증강된 모델을 2단계 자기 증류를 통해 적응시킨다. Qwen3-30B-A3B 및 GLM-4.7-Flash에서 수학, 코드, 지시 따르기 등 11개 벤치마크에 걸쳐, ZEDA는 미미한 정확도 손실로 전문가 FLOPs의 50% 이상을 제거한다. 이는 두 모델에서 가장 강력한 동적 MoE 기준선보다 각각 6.1점 및 4.0점 더 높은 성능을 보이며, 약 1.20배의 종단 간 추론 속도 향상을 제공한다.
English
Mixture-of-Experts (MoE) scales language models efficiently through sparse expert activation, and its dynamic variant further reduces computation by adjusting the activated experts in an input-dependent manner. Existing dynamic MoE methods usually rely on pre-training from scratch or task-specific adaptation, leaving the practical conversion of fully trained MoE underexplored. Enabling such adaptation would directly alleviate the inference costs by allowing easy tokens to bypass unnecessary expert during serving. This paper introduces Zero-Expert Self-Distillation Adaptation (ZEDA), a low-cost framework that transforms post-trained static MoE models into efficient dynamic ones. To stabilize this architectural conversion, ZEDA injects parameter-free zero-output experts into each MoE layer and adapts the augmented model through two-stage self-distillation, utilizing the original MoE as a frozen teacher and applying a group-level balancing loss. On Qwen3-30B-A3B and GLM-4.7-Flash across 11 benchmarks spanning math, code, and instruction following, ZEDA eliminates over 50% of expert FLOPs at marginal accuracy loss. It outperforms the strongest dynamic MoE baseline by 6.1 and 4.0 points on the two models, and delivers ~1.20times end-to-end inference speedup.