ChatPaper.aiChatPaper

MoBE: Mistura di Esperti a Base Mista per la Compressione di LLM Basati su MoE

MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs

August 7, 2025
Autori: Xiaodong Chen, Mingming Ha, Zhenzhong Lan, Jing Zhang, Jianguo Li
cs.AI

Abstract

L'architettura Mixture-of-Experts (MoE) è diventata un paradigma predominante per il ridimensionamento dei grandi modelli linguistici (LLM). Nonostante offra prestazioni robuste ed efficienza computazionale, i grandi LLM basati su MoE come DeepSeek-V3-0324 e Kimi-K2-Instruct presentano sfide significative a causa degli ingenti requisiti di memoria durante il deployment. Sebbene lavori recenti abbiano esplorato la compressione di MoE per affrontare questo problema, i metodi esistenti spesso soffrono di notevoli cali di accuratezza (ad esempio, 7-14% in termini relativi) anche con tassi di compressione modesti. Questo articolo introduce un nuovo metodo chiamato Mixture-of-Basis-Experts (MoBE) che consente la compressione del modello con cali di accuratezza minimi. Nello specifico, ogni matrice up/gate in un esperto viene decomposta tramite una decomposizione di rango come W = AB, dove la matrice A è unica per ogni esperto. La matrice B, relativamente più grande, viene ulteriormente ri-parametrizzata come una combinazione lineare di matrici di base {Bi} condivise tra tutti gli esperti all'interno di un dato strato MoE. La fattorizzazione viene appresa minimizzando l'errore di ricostruzione rispetto alle matrici di peso originali. Gli esperimenti dimostrano che MoBE ottiene cali di accuratezza notevolmente inferiori rispetto ai lavori precedenti. Ad esempio, MoBE può ridurre il numero di parametri di Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) e Kimi-K2-Instruct (1T) del 24%-30% con un calo di accuratezza di solo l'1%-2% (circa il 2% in termini relativi).
English
The Mixture-of-Experts (MoE) architecture has become a predominant paradigm for scaling large language models (LLMs). Despite offering strong performance and computational efficiency, large MoE-based LLMs like DeepSeek-V3-0324 and Kimi-K2-Instruct present serious challenges due to substantial memory requirements in deployment. While recent works have explored MoE compression to address this issue, existing methods often suffer from considerable accuracy drops (e.g., 7-14% relatively) even at modest compression rates. This paper introduces a novel Mixture-of-Basis-Experts (MoBE) method that achieves model compression while incurring minimal accuracy drops. Specifically, each up/gate matrix in an expert is decomposed via a rank decomposition as W = AB, where matrix A is unique to each expert. The relatively larger matrix B is further re-parameterized as a linear combination of basis matrices {Bi} shared across all experts within a given MoE layer. The factorization is learned by minimizing the reconstruction error relative to the original weight matrices. Experiments demonstrate that MoBE achieves notably lower accuracy drops compared to prior works. For instance, MoBE can reduce the parameter counts of Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) and Kimi-K2-Instruct (1T) by 24%-30% with only 1%-2% accuracy drop (about 2% drops when measured relatively).
PDF132August 12, 2025