MoBE: Mezcla-de-Bases-de-Expertos para la Compresión de LLMs Basados en MoE
MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs
August 7, 2025
Autores: Xiaodong Chen, Mingming Ha, Zhenzhong Lan, Jing Zhang, Jianguo Li
cs.AI
Resumen
La arquitectura Mixture-of-Experts (MoE) se ha convertido en un paradigma predominante para escalar modelos de lenguaje grandes (LLMs). A pesar de ofrecer un rendimiento sólido y eficiencia computacional, los LLMs basados en MoE de gran escala, como DeepSeek-V3-0324 y Kimi-K2-Instruct, presentan desafíos significativos debido a los requisitos sustanciales de memoria en su implementación. Si bien trabajos recientes han explorado la compresión de MoE para abordar este problema, los métodos existentes a menudo sufren caídas considerables en la precisión (por ejemplo, 7-14% relativamente) incluso con tasas de compresión modestas. Este artículo introduce un nuevo método llamado Mixture-of-Basis-Experts (MoBE) que logra la compresión del modelo mientras incurre en caídas mínimas de precisión. Específicamente, cada matriz up/gate en un experto se descompone mediante una descomposición de rango como W = AB, donde la matriz A es única para cada experto. La matriz B, relativamente más grande, se reparametriza como una combinación lineal de matrices base {Bi} compartidas entre todos los expertos dentro de una capa MoE dada. La factorización se aprende minimizando el error de reconstrucción relativo a las matrices de peso originales. Los experimentos demuestran que MoBE logra caídas de precisión notablemente menores en comparación con trabajos anteriores. Por ejemplo, MoBE puede reducir el número de parámetros de Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) y Kimi-K2-Instruct (1T) en un 24%-30% con solo una caída de precisión del 1%-2% (aproximadamente un 2% de caída cuando se mide relativamente).
English
The Mixture-of-Experts (MoE) architecture has become a predominant paradigm
for scaling large language models (LLMs). Despite offering strong performance
and computational efficiency, large MoE-based LLMs like DeepSeek-V3-0324 and
Kimi-K2-Instruct present serious challenges due to substantial memory
requirements in deployment. While recent works have explored MoE compression to
address this issue, existing methods often suffer from considerable accuracy
drops (e.g., 7-14% relatively) even at modest compression rates. This paper
introduces a novel Mixture-of-Basis-Experts (MoBE) method that achieves model
compression while incurring minimal accuracy drops. Specifically, each up/gate
matrix in an expert is decomposed via a rank decomposition as W = AB, where
matrix A is unique to each expert. The relatively larger matrix B is further
re-parameterized as a linear combination of basis matrices {Bi} shared across
all experts within a given MoE layer. The factorization is learned by
minimizing the reconstruction error relative to the original weight matrices.
Experiments demonstrate that MoBE achieves notably lower accuracy drops
compared to prior works. For instance, MoBE can reduce the parameter counts of
Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) and Kimi-K2-Instruct (1T) by
24%-30% with only 1%-2% accuracy drop (about 2% drops when measured
relatively).