Обрезка и дистилляция смеси экспертов в плотные языковые модели

Аннотация

Смесь экспертов (MoE) в настоящее время является доминирующей архитектурой для передовых языковых моделей, однако она требует загрузки всех параметров экспертов в память, что делает её менее предпочтительной для развертывания в условиях ограниченной памяти. Существующие методы сжатия уменьшают количество экспертов, но выходная модель остаётся MoE-моделью с тем же фундаментальным ограничением. Мы представляем первую систематическую структуру для преобразования обученной MoE в стандартную полностью плотную архитектуру: эксперты оцениваются, отбираются и группируются, затем конкатенируются в плотный FFN и уточняются с помощью дистилляции знаний от MoE-учителя. Мы оцениваем 7 методов оценки, 5 методов группировки и 2 метода масштабирования по величине при различных количествах отобранных экспертов на Qwen3-30B-A3B, что даёт 350 конфигураций. Мы обнаружили, что выбор метода оценки оказывает наибольшее влияние, при этом наш новый метод оценки с учётом разнообразия стабильно превосходит предыдущие методы на Qwen3-30B-A3B, DeepSeek-V2-Lite и GPT-OSS-20B. При контролируемом сравнении с одинаковым количеством параметров преобразование MoE в плотную модель превосходит прунинг «плотная-в-плотную» на +6,3 процентных пункта по средней точности на последующих задачах после дистилляции на ~4 миллиардах токенов при скорости обучения в реальном времени, в 1,6 раза превышающей исходную.

English

Mixture-of-Experts (MoE) is now the dominant architecture for frontier language models, yet it requires all expert parameters to be loaded in memory, making it less preferable for memory-constrained deployment. Existing compression methods reduce the number of experts but the output remains an MoE model with the same fundamental limitation. We present the first systematic framework for converting a trained MoE into a standard fully dense architecture: experts are scored, selected, and grouped, then concatenated into a dense FFN and refined by knowledge distillation from the MoE teacher. We evaluate 7 scoring, 5 grouping, and 2 magnitude scaling methods across a range of selected expert counts on Qwen3-30B-A3B, yielding 350 configurations. We find that the choice of scoring method is the most impactful, with our novel diversity-aware scoring consistently outperforming prior methods on Qwen3-30B-A3B, DeepSeek-V2-Lite, and GPT-OSS-20B. Under a controlled comparison at matched parameter count, MoE-to-dense outperforms dense-to-dense pruning by +6.3 pp in average downstream accuracy after ~4B-token distillation at 1.6x faster training wall-clock speed.