ChatPaper.aiChatPaper

MoBE: Смесь базовых экспертов для сжатия LLM на основе MoE

MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs

August 7, 2025
Авторы: Xiaodong Chen, Mingming Ha, Zhenzhong Lan, Jing Zhang, Jianguo Li
cs.AI

Аннотация

Архитектура Mixture-of-Experts (MoE) стала преобладающей парадигмой для масштабирования больших языковых моделей (LLM). Несмотря на высокую производительность и вычислительную эффективность, крупные LLM на основе MoE, такие как DeepSeek-V3-0324 и Kimi-K2-Instruct, представляют серьезные проблемы из-за значительных требований к памяти при развертывании. Хотя в последних работах изучалось сжатие MoE для решения этой проблемы, существующие методы часто страдают от существенного снижения точности (например, на 7–14% в относительном выражении) даже при умеренных уровнях сжатия. В данной статье представлен новый метод Mixture-of-Basis-Experts (MoBE), который позволяет сжимать модель с минимальным снижением точности. В частности, каждая матрица up/gate в эксперте декомпозируется с помощью рангового разложения как W = AB, где матрица A уникальна для каждого эксперта. Относительно большая матрица B дополнительно перепараметризуется как линейная комбинация базисных матриц {Bi}, общих для всех экспертов в рамках данного слоя MoE. Факторизация изучается путем минимизации ошибки реконструкции относительно исходных весовых матриц. Эксперименты показывают, что MoBE достигает значительно меньшего снижения точности по сравнению с предыдущими работами. Например, MoBE может сократить количество параметров моделей Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) и Kimi-K2-Instruct (1T) на 24–30% при снижении точности всего на 1–2% (около 2% в относительном выражении).
English
The Mixture-of-Experts (MoE) architecture has become a predominant paradigm for scaling large language models (LLMs). Despite offering strong performance and computational efficiency, large MoE-based LLMs like DeepSeek-V3-0324 and Kimi-K2-Instruct present serious challenges due to substantial memory requirements in deployment. While recent works have explored MoE compression to address this issue, existing methods often suffer from considerable accuracy drops (e.g., 7-14% relatively) even at modest compression rates. This paper introduces a novel Mixture-of-Basis-Experts (MoBE) method that achieves model compression while incurring minimal accuracy drops. Specifically, each up/gate matrix in an expert is decomposed via a rank decomposition as W = AB, where matrix A is unique to each expert. The relatively larger matrix B is further re-parameterized as a linear combination of basis matrices {Bi} shared across all experts within a given MoE layer. The factorization is learned by minimizing the reconstruction error relative to the original weight matrices. Experiments demonstrate that MoBE achieves notably lower accuracy drops compared to prior works. For instance, MoBE can reduce the parameter counts of Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) and Kimi-K2-Instruct (1T) by 24%-30% with only 1%-2% accuracy drop (about 2% drops when measured relatively).
PDF82August 12, 2025