MoBE: Mistura de Especialistas de Base para Compressão de LLMs Baseados em MoE
MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs
August 7, 2025
Autores: Xiaodong Chen, Mingming Ha, Zhenzhong Lan, Jing Zhang, Jianguo Li
cs.AI
Resumo
A arquitetura Mixture-of-Experts (MoE) tornou-se um paradigma predominante para a escalabilidade de grandes modelos de linguagem (LLMs). Apesar de oferecer desempenho robusto e eficiência computacional, grandes LLMs baseados em MoE, como DeepSeek-V3-0324 e Kimi-K2-Instruct, apresentam desafios significativos devido aos requisitos substanciais de memória em sua implantação. Embora trabalhos recentes tenham explorado a compressão de MoE para abordar esse problema, os métodos existentes frequentemente sofrem quedas consideráveis de precisão (por exemplo, 7-14% relativamente) mesmo em taxas de compressão modestas. Este artigo introduz um novo método chamado Mixture-of-Basis-Experts (MoBE), que alcança a compressão do modelo com quedas mínimas de precisão. Especificamente, cada matriz up/gate em um especialista é decomposta por meio de uma decomposição de posto como W = AB, onde a matriz A é única para cada especialista. A matriz B, relativamente maior, é ainda reparametrizada como uma combinação linear de matrizes base {Bi} compartilhadas entre todos os especialistas dentro de uma camada MoE específica. A fatorização é aprendida minimizando o erro de reconstrução em relação às matrizes de peso originais. Experimentos demonstram que o MoBE alcança quedas de precisão notavelmente menores em comparação com trabalhos anteriores. Por exemplo, o MoBE pode reduzir a contagem de parâmetros de Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) e Kimi-K2-Instruct (1T) em 24%-30% com apenas 1%-2% de queda na precisão (cerca de 2% de queda quando medido relativamente).
English
The Mixture-of-Experts (MoE) architecture has become a predominant paradigm
for scaling large language models (LLMs). Despite offering strong performance
and computational efficiency, large MoE-based LLMs like DeepSeek-V3-0324 and
Kimi-K2-Instruct present serious challenges due to substantial memory
requirements in deployment. While recent works have explored MoE compression to
address this issue, existing methods often suffer from considerable accuracy
drops (e.g., 7-14% relatively) even at modest compression rates. This paper
introduces a novel Mixture-of-Basis-Experts (MoBE) method that achieves model
compression while incurring minimal accuracy drops. Specifically, each up/gate
matrix in an expert is decomposed via a rank decomposition as W = AB, where
matrix A is unique to each expert. The relatively larger matrix B is further
re-parameterized as a linear combination of basis matrices {Bi} shared across
all experts within a given MoE layer. The factorization is learned by
minimizing the reconstruction error relative to the original weight matrices.
Experiments demonstrate that MoBE achieves notably lower accuracy drops
compared to prior works. For instance, MoBE can reduce the parameter counts of
Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) and Kimi-K2-Instruct (1T) by
24%-30% with only 1%-2% accuracy drop (about 2% drops when measured
relatively).