ChatPaper.aiChatPaper

SlimMoE: 大規模MoEモデルの構造化圧縮 - エキスパートスリミングと蒸留によるアプローチ

SlimMoE: Structured Compression of Large MoE Models via Expert Slimming and Distillation

June 23, 2025
著者: Zichong Li, Chen Liang, Zixuan Zhang, Ilgee Hong, Young Jin Kim, Weizhu Chen, Tuo Zhao
cs.AI

要旨

Mixture of Experts(MoE)アーキテクチャは、大規模言語モデル(LLM)のスケーリングと推論効率の維持を両立する強力なパラダイムとして登場しました。しかし、その膨大なメモリ要件により、リソースが制限された環境でのファインチューニングやデプロイが事実上不可能となっています。この課題に対処するため、我々はSlimMoEを提案します。これは、大規模なMoEモデルを、ゼロからトレーニングするという過大なコストをかけずに、より小型で効率的なバリアントに変換する多段階圧縮フレームワークです。本手法では、エキスパートのスリム化と中間段階を経た知識転移を通じてパラメータ数を体系的に削減し、ワンショットプルーニング手法でよく見られる性能低下を効果的に緩和します。このフレームワークを用いて、Phi 3.5-MoE(総パラメータ41.9B/活性化パラメータ6.6B)を、元のモデルのトレーニングデータの10%未満である400Bトークンのみを使用して、Phi-mini-MoE(総パラメータ7.6B/活性化パラメータ2.4B)とPhi-tiny-MoE(総パラメータ3.8B/活性化パラメータ1.1B)に圧縮しました。これらの圧縮モデルは、単一のGPU(Phi-mini-MoEはA100、Phi-tiny-MoEはA6000)でファインチューニング可能であり、学術的またはリソースが限られた環境での使用に非常に適しています。実験結果では、これらの圧縮モデルが同サイズの他のモデルを上回り、より大規模なモデルとも競争力のある性能を示しています。例えば、Phi-mini-MoEは、活性化パラメータの2/3のみを使用してPhi-3-miniと同等以上の性能を達成し、Llama 3.1 8Bと同等のMMLUスコアを記録しながら、大幅に低いレイテンシを実現しています。我々の研究結果は、構造化プルーニングと段階的蒸留を組み合わせることで、高品質でコンパクトなMoEモデルを作成する効果的な方法を示しており、MoEアーキテクチャのより広範な採用への道を開くものです。我々は、これらのモデルをhttps://huggingface.co/microsoft/Phi-mini-MoE-instruct および https://huggingface.co/microsoft/Phi-tiny-MoE-instruct で公開しています。
English
The Mixture of Experts (MoE) architecture has emerged as a powerful paradigm for scaling large language models (LLMs) while maintaining inference efficiency. However, their enormous memory requirements make them prohibitively expensive to fine-tune or deploy in resource-constrained environments. To address this challenge, we introduce SlimMoE, a multi-stage compression framework for transforming large MoE models into much smaller, efficient variants without incurring the prohibitive costs of training from scratch. Our method systematically reduces parameter counts by slimming experts and transferring knowledge through intermediate stages, effectively mitigating the performance degradation common in one-shot pruning approaches. Using this framework, we compress Phi 3.5-MoE (41.9B total/6.6B activated parameters) to create Phi-mini-MoE (7.6B total/2.4B activated parameters) and Phi-tiny-MoE (3.8B total/1.1B activated parameters) using only 400B tokens--less than 10% of the original model's training data. These compressed models can be fine-tuned on a single GPU (A100 for Phi-mini-MoE, A6000 for Phi-tiny-MoE), making them highly suitable for academic and resource-limited settings. Our experiments demonstrate that these compressed models outperform others of similar size and remain competitive with larger models. For instance, Phi-mini-MoE achieves similar or better performance to Phi-3-mini using only 2/3 of the activated parameters and yields comparable MMLU scores to Llama 3.1 8B despite having significantly lower latency. Our findings demonstrate that structured pruning combined with staged distillation offers an effective path to creating high-quality, compact MoE models, paving the way for broader adoption of MoE architectures. We make our models publicly available at https://huggingface.co/microsoft/Phi-mini-MoE-instruct and https://huggingface.co/microsoft/Phi-tiny-MoE-instruct .
PDF71June 24, 2025