Grove MoE: Naar efficiënte en superieure MoE LLM's met adjunct-experts

Samenvatting

De Mixture of Experts (MoE)-architectuur is een hoeksteen van moderne state-of-the-art (SOTA) grote taalmodelen (LLM's). MoE-modellen bevorderen schaalbaarheid door het mogelijk te maken van sparse parameteractivatie. Traditionele MoE-architecturen gebruiken echter homogene experts van uniforme grootte, waarbij een vast aantal parameters wordt geactiveerd, ongeacht de complexiteit van de input, wat de computationele efficiëntie beperkt. Om deze beperking te overwinnen, introduceren we Grove MoE, een nieuwe architectuur die experts van verschillende groottes omvat, geïnspireerd door de heterogene big.LITTLE CPU-architectuur. Deze architectuur beschikt over nieuwe adjugate experts met een dynamisch activatiemechanisme, waardoor de modelcapaciteit kan worden uitgebreid terwijl het computationele overhead beheersbaar blijft. Op basis van deze architectuur presenteren we GroveMoE-Base en GroveMoE-Inst, 33B-parameter LLM's die zijn ontwikkeld door een upcyclingstrategie toe te passen op het Qwen3-30B-A3B-Base-model tijdens mid-training en post-training. GroveMoE-modellen activeren dynamisch 3,14-3,28B parameters op basis van tokencomplexiteit en bereiken prestaties die vergelijkbaar zijn met SOTA open-source modellen van vergelijkbare of zelfs grotere omvang.

English

The Mixture of Experts (MoE) architecture is a cornerstone of modern state-of-the-art (SOTA) large language models (LLMs). MoE models facilitate scalability by enabling sparse parameter activation. However, traditional MoE architecture uses homogeneous experts of a uniform size, activating a fixed number of parameters irrespective of input complexity and thus limiting computational efficiency. To overcome this limitation, we introduce Grove MoE, a novel architecture incorporating experts of varying sizes, inspired by the heterogeneous big.LITTLE CPU architecture. This architecture features novel adjugate experts with a dynamic activation mechanism, enabling model capacity expansion while maintaining manageable computational overhead. Building on this architecture, we present GroveMoE-Base and GroveMoE-Inst, 33B-parameter LLMs developed by applying an upcycling strategy to the Qwen3-30B-A3B-Base model during mid-training and post-training. GroveMoE models dynamically activate 3.14-3.28B parameters based on token complexity and achieve performance comparable to SOTA open-source models of similar or even larger size.

Grove MoE: Naar efficiënte en superieure MoE LLM's met adjunct-experts

Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts

Samenvatting

Support