MoE после обучения может пропускать половину экспертов с помощью самодистилляции

Аннотация

Смесь экспертов (MoE) масштабирует языковые модели эффективно за счет разреженной активации экспертов, а её динамический вариант дополнительно сокращает вычисления путем подстройки активируемых экспертов в зависимости от входных данных. Существующие динамические методы MoE обычно полагаются на предварительное обучение с нуля или адаптацию под конкретную задачу, оставляя практическое преобразование полностью обученных MoE-моделей недостаточно изученным. Возможность такой адаптации напрямую снизила бы затраты на инференс, позволяя простым токенам обходить ненужные эксперты во время обслуживания. В этой статье представлена адаптация с самодистилляцией нулевого эксперта (ZEDA) — малозатратная схема, преобразующая статические MoE-модели после обучения в эффективные динамические. Для стабилизации этого архитектурного преобразования ZEDA встраивает параметрически свободные нулевые эксперты в каждый слой MoE и адаптирует расширенную модель с помощью двухэтапной самодистилляции, используя исходную MoE в качестве замороженного учителя и применяя балансирующую потерю на уровне групп. На моделях Qwen3-30B-A3B и GLM-4.7-Flash по 11 бенчмаркам, охватывающим математику, код и следование инструкциям, ZEDA устраняет более 50% экспертных FLOPs при незначительной потере точности. Она превосходит сильнейший динамический базовый метод MoE на 6,1 и 4,0 балла на двух моделях и обеспечивает ускорение сквозного инференса примерно в 1,20 раза.

English

Mixture-of-Experts (MoE) scales language models efficiently through sparse expert activation, and its dynamic variant further reduces computation by adjusting the activated experts in an input-dependent manner. Existing dynamic MoE methods usually rely on pre-training from scratch or task-specific adaptation, leaving the practical conversion of fully trained MoE underexplored. Enabling such adaptation would directly alleviate the inference costs by allowing easy tokens to bypass unnecessary expert during serving. This paper introduces Zero-Expert Self-Distillation Adaptation (ZEDA), a low-cost framework that transforms post-trained static MoE models into efficient dynamic ones. To stabilize this architectural conversion, ZEDA injects parameter-free zero-output experts into each MoE layer and adapts the augmented model through two-stage self-distillation, utilizing the original MoE as a frozen teacher and applying a group-level balancing loss. On Qwen3-30B-A3B and GLM-4.7-Flash across 11 benchmarks spanning math, code, and instruction following, ZEDA eliminates over 50% of expert FLOPs at marginal accuracy loss. It outperforms the strongest dynamic MoE baseline by 6.1 and 4.0 points on the two models, and delivers ~1.20times end-to-end inference speedup.