ChatPaper.aiChatPaper

SlimMoE : Compression structurée des grands modèles MoE par amincissement des experts et distillation

SlimMoE: Structured Compression of Large MoE Models via Expert Slimming and Distillation

June 23, 2025
Auteurs: Zichong Li, Chen Liang, Zixuan Zhang, Ilgee Hong, Young Jin Kim, Weizhu Chen, Tuo Zhao
cs.AI

Résumé

L'architecture Mixture of Experts (MoE) s'est imposée comme un paradigme puissant pour l'extension des grands modèles de langage (LLMs) tout en maintenant l'efficacité de l'inférence. Cependant, leurs énormes besoins en mémoire les rendent prohibitivement coûteux à affiner ou à déployer dans des environnements aux ressources limitées. Pour relever ce défi, nous introduisons SlimMoE, un cadre de compression multi-étapes permettant de transformer de grands modèles MoE en des variantes beaucoup plus petites et efficaces sans engendrer les coûts prohibitifs d'un entraînement à partir de zéro. Notre méthode réduit systématiquement le nombre de paramètres en affinant les experts et en transférant les connaissances à travers des étapes intermédiaires, atténuant ainsi efficacement la dégradation des performances commune aux approches d'élagage en une seule étape. En utilisant ce cadre, nous compressons Phi 3.5-MoE (41,9B paramètres totaux/6,6B paramètres activés) pour créer Phi-mini-MoE (7,6B paramètres totaux/2,4B paramètres activés) et Phi-tiny-MoE (3,8B paramètres totaux/1,1B paramètres activés) en utilisant seulement 400B tokens—moins de 10 % des données d'entraînement du modèle original. Ces modèles compressés peuvent être affinés sur un seul GPU (A100 pour Phi-mini-MoE, A6000 pour Phi-tiny-MoE), les rendant très adaptés aux contextes académiques et aux environnements aux ressources limitées. Nos expériences montrent que ces modèles compressés surpassent d'autres modèles de taille similaire et restent compétitifs avec des modèles plus grands. Par exemple, Phi-mini-MoE atteint des performances similaires ou meilleures à celles de Phi-3-mini en utilisant seulement 2/3 des paramètres activés et obtient des scores MMLU comparables à ceux de Llama 3.1 8B malgré une latence significativement plus faible. Nos résultats démontrent que l'élagage structuré combiné à une distillation par étapes offre une voie efficace pour créer des modèles MoE compacts et de haute qualité, ouvrant la voie à une adoption plus large des architectures MoE. Nous rendons nos modèles publics sur https://huggingface.co/microsoft/Phi-mini-MoE-instruct et https://huggingface.co/microsoft/Phi-tiny-MoE-instruct.
English
The Mixture of Experts (MoE) architecture has emerged as a powerful paradigm for scaling large language models (LLMs) while maintaining inference efficiency. However, their enormous memory requirements make them prohibitively expensive to fine-tune or deploy in resource-constrained environments. To address this challenge, we introduce SlimMoE, a multi-stage compression framework for transforming large MoE models into much smaller, efficient variants without incurring the prohibitive costs of training from scratch. Our method systematically reduces parameter counts by slimming experts and transferring knowledge through intermediate stages, effectively mitigating the performance degradation common in one-shot pruning approaches. Using this framework, we compress Phi 3.5-MoE (41.9B total/6.6B activated parameters) to create Phi-mini-MoE (7.6B total/2.4B activated parameters) and Phi-tiny-MoE (3.8B total/1.1B activated parameters) using only 400B tokens--less than 10% of the original model's training data. These compressed models can be fine-tuned on a single GPU (A100 for Phi-mini-MoE, A6000 for Phi-tiny-MoE), making them highly suitable for academic and resource-limited settings. Our experiments demonstrate that these compressed models outperform others of similar size and remain competitive with larger models. For instance, Phi-mini-MoE achieves similar or better performance to Phi-3-mini using only 2/3 of the activated parameters and yields comparable MMLU scores to Llama 3.1 8B despite having significantly lower latency. Our findings demonstrate that structured pruning combined with staged distillation offers an effective path to creating high-quality, compact MoE models, paving the way for broader adoption of MoE architectures. We make our models publicly available at https://huggingface.co/microsoft/Phi-mini-MoE-instruct and https://huggingface.co/microsoft/Phi-tiny-MoE-instruct .
PDF71June 24, 2025