ChatPaper.aiChatPaper

MoBE: Mixture-of-Basis-Experts voor het comprimeren van MoE-gebaseerde LLM's

MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs

August 7, 2025
Auteurs: Xiaodong Chen, Mingming Ha, Zhenzhong Lan, Jing Zhang, Jianguo Li
cs.AI

Samenvatting

De Mixture-of-Experts (MoE)-architectuur is uitgegroeid tot een dominant paradigma voor het schalen van grote taalmodel(len) (LLMs). Hoewel het sterke prestaties en computationele efficiëntie biedt, vormen grote MoE-gebaseerde LLMs zoals DeepSeek-V3-0324 en Kimi-K2-Instruct serieuze uitdagingen vanwege de aanzienlijke geheugeneisen bij implementatie. Hoewel recente werken MoE-compressie hebben onderzocht om dit probleem aan te pakken, leiden bestaande methoden vaak tot aanzienlijke nauwkeurigheidsverliezen (bijv. 7-14% relatief) zelfs bij bescheiden compressiepercentages. Dit artikel introduceert een nieuwe Mixture-of-Basis-Experts (MoBE)-methode die modelcompressie bereikt met minimale nauwkeurigheidsverliezen. Specifiek wordt elke up/gate-matrix in een expert ontbonden via een rangontbinding als W = AB, waarbij matrix A uniek is voor elke expert. De relatief grotere matrix B wordt verder her-parameteriseerd als een lineaire combinatie van basismatrices {Bi} die worden gedeeld door alle experts binnen een bepaalde MoE-laag. De factorisatie wordt geleerd door de reconstructiefout ten opzichte van de originele gewichtsmatrices te minimaliseren. Experimenten tonen aan dat MoBE aanzienlijk lagere nauwkeurigheidsverliezen bereikt in vergelijking met eerdere werken. Zo kan MoBE het aantal parameters van Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) en Kimi-K2-Instruct (1T) met 24%-30% verminderen met slechts 1%-2% nauwkeurigheidsverlies (ongeveer 2% verlies wanneer relatief gemeten).
English
The Mixture-of-Experts (MoE) architecture has become a predominant paradigm for scaling large language models (LLMs). Despite offering strong performance and computational efficiency, large MoE-based LLMs like DeepSeek-V3-0324 and Kimi-K2-Instruct present serious challenges due to substantial memory requirements in deployment. While recent works have explored MoE compression to address this issue, existing methods often suffer from considerable accuracy drops (e.g., 7-14% relatively) even at modest compression rates. This paper introduces a novel Mixture-of-Basis-Experts (MoBE) method that achieves model compression while incurring minimal accuracy drops. Specifically, each up/gate matrix in an expert is decomposed via a rank decomposition as W = AB, where matrix A is unique to each expert. The relatively larger matrix B is further re-parameterized as a linear combination of basis matrices {Bi} shared across all experts within a given MoE layer. The factorization is learned by minimizing the reconstruction error relative to the original weight matrices. Experiments demonstrate that MoBE achieves notably lower accuracy drops compared to prior works. For instance, MoBE can reduce the parameter counts of Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) and Kimi-K2-Instruct (1T) by 24%-30% with only 1%-2% accuracy drop (about 2% drops when measured relatively).
PDF132August 12, 2025