ChatPaper.aiChatPaper

MoBE : Mélange de Base d'Experts pour la Compression des LLMs basés sur MoE

MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs

August 7, 2025
papers.authors: Xiaodong Chen, Mingming Ha, Zhenzhong Lan, Jing Zhang, Jianguo Li
cs.AI

papers.abstract

L'architecture Mixture-of-Experts (MoE) est devenue un paradigme prédominant pour la mise à l'échelle des grands modèles de langage (LLM). Bien qu'elle offre des performances solides et une efficacité computationnelle, les grands LLM basés sur MoE comme DeepSeek-V3-0324 et Kimi-K2-Instruct posent des défis sérieux en raison de leurs exigences mémoire substantielles lors du déploiement. Bien que des travaux récents aient exploré la compression de MoE pour résoudre ce problème, les méthodes existantes souffrent souvent de baisses de précision considérables (par exemple, 7 à 14 % en termes relatifs) même à des taux de compression modestes. Cet article introduit une nouvelle méthode appelée Mixture-of-Basis-Experts (MoBE) qui permet la compression du modèle tout en entraînant des baisses de précision minimales. Plus précisément, chaque matrice up/gate dans un expert est décomposée via une décomposition de rang sous la forme W = AB, où la matrice A est unique à chaque expert. La matrice B, relativement plus grande, est ensuite re-paramétrée comme une combinaison linéaire de matrices de base {Bi} partagées entre tous les experts au sein d'une couche MoE donnée. La factorisation est apprise en minimisant l'erreur de reconstruction par rapport aux matrices de poids originales. Les expériences démontrent que MoBE entraîne des baisses de précision nettement plus faibles par rapport aux travaux précédents. Par exemple, MoBE peut réduire le nombre de paramètres de Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) et Kimi-K2-Instruct (1T) de 24 % à 30 % avec seulement une baisse de précision de 1 % à 2 % (environ 2 % de baisse en termes relatifs).
English
The Mixture-of-Experts (MoE) architecture has become a predominant paradigm for scaling large language models (LLMs). Despite offering strong performance and computational efficiency, large MoE-based LLMs like DeepSeek-V3-0324 and Kimi-K2-Instruct present serious challenges due to substantial memory requirements in deployment. While recent works have explored MoE compression to address this issue, existing methods often suffer from considerable accuracy drops (e.g., 7-14% relatively) even at modest compression rates. This paper introduces a novel Mixture-of-Basis-Experts (MoBE) method that achieves model compression while incurring minimal accuracy drops. Specifically, each up/gate matrix in an expert is decomposed via a rank decomposition as W = AB, where matrix A is unique to each expert. The relatively larger matrix B is further re-parameterized as a linear combination of basis matrices {Bi} shared across all experts within a given MoE layer. The factorization is learned by minimizing the reconstruction error relative to the original weight matrices. Experiments demonstrate that MoBE achieves notably lower accuracy drops compared to prior works. For instance, MoBE can reduce the parameter counts of Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) and Kimi-K2-Instruct (1T) by 24%-30% with only 1%-2% accuracy drop (about 2% drops when measured relatively).
PDF82August 12, 2025