Grove MoE: Naar efficiënte en superieure MoE LLM's met adjunct-experts
Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts
August 11, 2025
Auteurs: Haoyuan Wu, Haoxing Chen, Xiaodong Chen, Zhanchao Zhou, Tieyuan Chen, Yihong Zhuang, Guoshan Lu, Zenan Huang, Junbo Zhao, Lin Liu, Zhenzhong Lan, Bei Yu, Jianguo Li
cs.AI
Samenvatting
De Mixture of Experts (MoE)-architectuur is een hoeksteen van moderne state-of-the-art (SOTA) grote taalmodelen (LLM's). MoE-modellen bevorderen schaalbaarheid door het mogelijk te maken van sparse parameteractivatie. Traditionele MoE-architecturen gebruiken echter homogene experts van uniforme grootte, waarbij een vast aantal parameters wordt geactiveerd, ongeacht de complexiteit van de input, wat de computationele efficiëntie beperkt. Om deze beperking te overwinnen, introduceren we Grove MoE, een nieuwe architectuur die experts van verschillende groottes omvat, geïnspireerd door de heterogene big.LITTLE CPU-architectuur. Deze architectuur beschikt over nieuwe adjugate experts met een dynamisch activatiemechanisme, waardoor de modelcapaciteit kan worden uitgebreid terwijl het computationele overhead beheersbaar blijft. Op basis van deze architectuur presenteren we GroveMoE-Base en GroveMoE-Inst, 33B-parameter LLM's die zijn ontwikkeld door een upcyclingstrategie toe te passen op het Qwen3-30B-A3B-Base-model tijdens mid-training en post-training. GroveMoE-modellen activeren dynamisch 3,14-3,28B parameters op basis van tokencomplexiteit en bereiken prestaties die vergelijkbaar zijn met SOTA open-source modellen van vergelijkbare of zelfs grotere omvang.
English
The Mixture of Experts (MoE) architecture is a cornerstone of modern
state-of-the-art (SOTA) large language models (LLMs). MoE models facilitate
scalability by enabling sparse parameter activation. However, traditional MoE
architecture uses homogeneous experts of a uniform size, activating a fixed
number of parameters irrespective of input complexity and thus limiting
computational efficiency. To overcome this limitation, we introduce Grove MoE,
a novel architecture incorporating experts of varying sizes, inspired by the
heterogeneous big.LITTLE CPU architecture. This architecture features novel
adjugate experts with a dynamic activation mechanism, enabling model capacity
expansion while maintaining manageable computational overhead. Building on this
architecture, we present GroveMoE-Base and GroveMoE-Inst, 33B-parameter LLMs
developed by applying an upcycling strategy to the Qwen3-30B-A3B-Base model
during mid-training and post-training. GroveMoE models dynamically activate
3.14-3.28B parameters based on token complexity and achieve performance
comparable to SOTA open-source models of similar or even larger size.