MoBE : Mélange de Base d'Experts pour la Compression des LLMs basés sur MoE
MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs
August 7, 2025
papers.authors: Xiaodong Chen, Mingming Ha, Zhenzhong Lan, Jing Zhang, Jianguo Li
cs.AI
papers.abstract
L'architecture Mixture-of-Experts (MoE) est devenue un paradigme prédominant pour la mise à l'échelle des grands modèles de langage (LLM). Bien qu'elle offre des performances solides et une efficacité computationnelle, les grands LLM basés sur MoE comme DeepSeek-V3-0324 et Kimi-K2-Instruct posent des défis sérieux en raison de leurs exigences mémoire substantielles lors du déploiement. Bien que des travaux récents aient exploré la compression de MoE pour résoudre ce problème, les méthodes existantes souffrent souvent de baisses de précision considérables (par exemple, 7 à 14 % en termes relatifs) même à des taux de compression modestes. Cet article introduit une nouvelle méthode appelée Mixture-of-Basis-Experts (MoBE) qui permet la compression du modèle tout en entraînant des baisses de précision minimales. Plus précisément, chaque matrice up/gate dans un expert est décomposée via une décomposition de rang sous la forme W = AB, où la matrice A est unique à chaque expert. La matrice B, relativement plus grande, est ensuite re-paramétrée comme une combinaison linéaire de matrices de base {Bi} partagées entre tous les experts au sein d'une couche MoE donnée. La factorisation est apprise en minimisant l'erreur de reconstruction par rapport aux matrices de poids originales. Les expériences démontrent que MoBE entraîne des baisses de précision nettement plus faibles par rapport aux travaux précédents. Par exemple, MoBE peut réduire le nombre de paramètres de Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) et Kimi-K2-Instruct (1T) de 24 % à 30 % avec seulement une baisse de précision de 1 % à 2 % (environ 2 % de baisse en termes relatifs).
English
The Mixture-of-Experts (MoE) architecture has become a predominant paradigm
for scaling large language models (LLMs). Despite offering strong performance
and computational efficiency, large MoE-based LLMs like DeepSeek-V3-0324 and
Kimi-K2-Instruct present serious challenges due to substantial memory
requirements in deployment. While recent works have explored MoE compression to
address this issue, existing methods often suffer from considerable accuracy
drops (e.g., 7-14% relatively) even at modest compression rates. This paper
introduces a novel Mixture-of-Basis-Experts (MoBE) method that achieves model
compression while incurring minimal accuracy drops. Specifically, each up/gate
matrix in an expert is decomposed via a rank decomposition as W = AB, where
matrix A is unique to each expert. The relatively larger matrix B is further
re-parameterized as a linear combination of basis matrices {Bi} shared across
all experts within a given MoE layer. The factorization is learned by
minimizing the reconstruction error relative to the original weight matrices.
Experiments demonstrate that MoBE achieves notably lower accuracy drops
compared to prior works. For instance, MoBE can reduce the parameter counts of
Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) and Kimi-K2-Instruct (1T) by
24%-30% with only 1%-2% accuracy drop (about 2% drops when measured
relatively).