ChatPaper.aiChatPaper

전문가 혼합 모델을 밀집 언어 모델로 가지치기 및 증류

Pruning and Distilling Mixture-of-Experts into Dense Language Models

May 27, 2026
저자: Junhyuck Kim, Jihun Yun, Haechan Kim, Gyeongman Kim, Joonghyun Bae, Jaewoong Cho
cs.AI

초록

전문가 혼합(Mixture-of-Experts, MoE)은 현재 최첨단 언어 모델의 지배적인 아키텍처이지만, 모든 전문가 매개변수를 메모리에 적재해야 하므로 메모리 제약이 있는 배포 환경에서는 선호도가 낮다. 기존 압축 방법은 전문가 수를 줄이지만, 출력은 여전히 동일한 근본적 한계를 가진 MoE 모델에 불과하다. 본 연구는 훈련된 MoE를 표준 완전 밀집(fully dense) 아키텍처로 변환하는 최초의 체계적 프레임워크를 제시한다. 즉, 전문가들을 점수화, 선택, 그룹화한 후 결합하여 밀집 FFN(Feed-Forward Network)으로 만들고, MoE 교사 모델로부터의 지식 증류(knowledge distillation)를 통해 정제한다. 우리는 Qwen3-30B-A3B 모델에 대해 다양한 선택된 전문가 수에서 7가지 점수화 방법, 5가지 그룹화 방법, 2가지 크기 조정(magnitude scaling) 방법을 평가하여 총 350개의 설정을 도출했다. 점수화 방법의 선택이 가장 큰 영향을 미치며, 본 연구의 새로운 다양성 인식 점수화(diversity-aware scoring) 방법이 Qwen3-30B-A3B, DeepSeek-V2-Lite, GPT-OSS-20B에서 이전 방법들을 일관되게 능가함을 발견했다. 동일한 매개변수 수에서 통제된 비교를 수행한 결과, MoE에서 밀집으로의 변환(MoE-to-dense)은 약 40억 토큰 증류 후 밀집-대-밀집 가지치기(dense-to-dense pruning)보다 평균 하위 작업 정확도에서 +6.3% 포인트 우수했으며, 실제 소요 시간 기준 1.6배 더 빠른 훈련 속도를 보였다.
English
Mixture-of-Experts (MoE) is now the dominant architecture for frontier language models, yet it requires all expert parameters to be loaded in memory, making it less preferable for memory-constrained deployment. Existing compression methods reduce the number of experts but the output remains an MoE model with the same fundamental limitation. We present the first systematic framework for converting a trained MoE into a standard fully dense architecture: experts are scored, selected, and grouped, then concatenated into a dense FFN and refined by knowledge distillation from the MoE teacher. We evaluate 7 scoring, 5 grouping, and 2 magnitude scaling methods across a range of selected expert counts on Qwen3-30B-A3B, yielding 350 configurations. We find that the choice of scoring method is the most impactful, with our novel diversity-aware scoring consistently outperforming prior methods on Qwen3-30B-A3B, DeepSeek-V2-Lite, and GPT-OSS-20B. Under a controlled comparison at matched parameter count, MoE-to-dense outperforms dense-to-dense pruning by +6.3 pp in average downstream accuracy after ~4B-token distillation at 1.6x faster training wall-clock speed.