SlimMoE : Compression structurée des grands modèles MoE par amincissement des experts et distillation
SlimMoE: Structured Compression of Large MoE Models via Expert Slimming and Distillation
June 23, 2025
Auteurs: Zichong Li, Chen Liang, Zixuan Zhang, Ilgee Hong, Young Jin Kim, Weizhu Chen, Tuo Zhao
cs.AI
Résumé
L'architecture Mixture of Experts (MoE) s'est imposée comme un paradigme puissant pour l'extension des grands modèles de langage (LLMs) tout en maintenant l'efficacité de l'inférence. Cependant, leurs énormes besoins en mémoire les rendent prohibitivement coûteux à affiner ou à déployer dans des environnements aux ressources limitées. Pour relever ce défi, nous introduisons SlimMoE, un cadre de compression multi-étapes permettant de transformer de grands modèles MoE en des variantes beaucoup plus petites et efficaces sans engendrer les coûts prohibitifs d'un entraînement à partir de zéro. Notre méthode réduit systématiquement le nombre de paramètres en affinant les experts et en transférant les connaissances à travers des étapes intermédiaires, atténuant ainsi efficacement la dégradation des performances commune aux approches d'élagage en une seule étape. En utilisant ce cadre, nous compressons Phi 3.5-MoE (41,9B paramètres totaux/6,6B paramètres activés) pour créer Phi-mini-MoE (7,6B paramètres totaux/2,4B paramètres activés) et Phi-tiny-MoE (3,8B paramètres totaux/1,1B paramètres activés) en utilisant seulement 400B tokens—moins de 10 % des données d'entraînement du modèle original. Ces modèles compressés peuvent être affinés sur un seul GPU (A100 pour Phi-mini-MoE, A6000 pour Phi-tiny-MoE), les rendant très adaptés aux contextes académiques et aux environnements aux ressources limitées. Nos expériences montrent que ces modèles compressés surpassent d'autres modèles de taille similaire et restent compétitifs avec des modèles plus grands. Par exemple, Phi-mini-MoE atteint des performances similaires ou meilleures à celles de Phi-3-mini en utilisant seulement 2/3 des paramètres activés et obtient des scores MMLU comparables à ceux de Llama 3.1 8B malgré une latence significativement plus faible. Nos résultats démontrent que l'élagage structuré combiné à une distillation par étapes offre une voie efficace pour créer des modèles MoE compacts et de haute qualité, ouvrant la voie à une adoption plus large des architectures MoE. Nous rendons nos modèles publics sur https://huggingface.co/microsoft/Phi-mini-MoE-instruct et https://huggingface.co/microsoft/Phi-tiny-MoE-instruct.
English
The Mixture of Experts (MoE) architecture has emerged as a powerful paradigm
for scaling large language models (LLMs) while maintaining inference
efficiency. However, their enormous memory requirements make them prohibitively
expensive to fine-tune or deploy in resource-constrained environments. To
address this challenge, we introduce SlimMoE, a multi-stage compression
framework for transforming large MoE models into much smaller, efficient
variants without incurring the prohibitive costs of training from scratch. Our
method systematically reduces parameter counts by slimming experts and
transferring knowledge through intermediate stages, effectively mitigating the
performance degradation common in one-shot pruning approaches. Using this
framework, we compress Phi 3.5-MoE (41.9B total/6.6B activated parameters) to
create Phi-mini-MoE (7.6B total/2.4B activated parameters) and Phi-tiny-MoE
(3.8B total/1.1B activated parameters) using only 400B tokens--less than 10% of
the original model's training data. These compressed models can be fine-tuned
on a single GPU (A100 for Phi-mini-MoE, A6000 for Phi-tiny-MoE), making them
highly suitable for academic and resource-limited settings. Our experiments
demonstrate that these compressed models outperform others of similar size and
remain competitive with larger models. For instance, Phi-mini-MoE achieves
similar or better performance to Phi-3-mini using only 2/3 of the activated
parameters and yields comparable MMLU scores to Llama 3.1 8B despite having
significantly lower latency. Our findings demonstrate that structured pruning
combined with staged distillation offers an effective path to creating
high-quality, compact MoE models, paving the way for broader adoption of MoE
architectures. We make our models publicly available at
https://huggingface.co/microsoft/Phi-mini-MoE-instruct and
https://huggingface.co/microsoft/Phi-tiny-MoE-instruct .