MoBE: Mixture-of-Basis-Experten zur Komprimierung von MoE-basierten LLMs
MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs
August 7, 2025
papers.authors: Xiaodong Chen, Mingming Ha, Zhenzhong Lan, Jing Zhang, Jianguo Li
cs.AI
papers.abstract
Die Mixture-of-Experts (MoE)-Architektur hat sich zu einem vorherrschenden Paradigma für die Skalierung großer Sprachmodelle (LLMs) entwickelt. Obwohl sie eine hohe Leistung und Recheneffizienz bietet, stellen große MoE-basierte LLMs wie DeepSeek-V3-0324 und Kimi-K2-Instruct aufgrund des erheblichen Speicherbedarfs bei der Bereitstellung ernsthafte Herausforderungen dar. Während neuere Arbeiten die MoE-Kompression zur Lösung dieses Problems untersucht haben, leiden bestehende Methoden oft unter erheblichen Genauigkeitseinbußen (z. B. 7–14 % relativ) selbst bei moderaten Kompressionsraten. Dieses Papier stellt eine neuartige Mixture-of-Basis-Experts (MoBE)-Methode vor, die eine Modellkompression ermöglicht, während nur minimale Genauigkeitseinbußen auftreten. Konkret wird jede Up/Gate-Matrix in einem Experten durch eine Rang-Zerlegung als W = AB dekomponiert, wobei die Matrix A für jeden Experten einzigartig ist. Die relativ größere Matrix B wird weiter als eine lineare Kombination von Basis-Matrizen {Bi} reparametrisiert, die über alle Experten innerhalb einer bestimmten MoE-Schicht geteilt werden. Die Faktorisierung wird durch die Minimierung des Rekonstruktionsfehlers relativ zu den ursprünglichen Gewichtsmatrizen erlernt. Experimente zeigen, dass MoBE im Vergleich zu früheren Arbeiten deutlich geringere Genauigkeitseinbußen aufweist. Beispielsweise kann MoBE die Parameteranzahl von Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) und Kimi-K2-Instruct (1T) um 24–30 % reduzieren, wobei nur 1–2 % Genauigkeitseinbußen auftreten (etwa 2 % Einbußen relativ gemessen).
English
The Mixture-of-Experts (MoE) architecture has become a predominant paradigm
for scaling large language models (LLMs). Despite offering strong performance
and computational efficiency, large MoE-based LLMs like DeepSeek-V3-0324 and
Kimi-K2-Instruct present serious challenges due to substantial memory
requirements in deployment. While recent works have explored MoE compression to
address this issue, existing methods often suffer from considerable accuracy
drops (e.g., 7-14% relatively) even at modest compression rates. This paper
introduces a novel Mixture-of-Basis-Experts (MoBE) method that achieves model
compression while incurring minimal accuracy drops. Specifically, each up/gate
matrix in an expert is decomposed via a rank decomposition as W = AB, where
matrix A is unique to each expert. The relatively larger matrix B is further
re-parameterized as a linear combination of basis matrices {Bi} shared across
all experts within a given MoE layer. The factorization is learned by
minimizing the reconstruction error relative to the original weight matrices.
Experiments demonstrate that MoBE achieves notably lower accuracy drops
compared to prior works. For instance, MoBE can reduce the parameter counts of
Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) and Kimi-K2-Instruct (1T) by
24%-30% with only 1%-2% accuracy drop (about 2% drops when measured
relatively).