Grove MoE: Auf dem Weg zu effizienten und überlegenen MoE-LLMs mit adjungierten Experten
Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts
August 11, 2025
papers.authors: Haoyuan Wu, Haoxing Chen, Xiaodong Chen, Zhanchao Zhou, Tieyuan Chen, Yihong Zhuang, Guoshan Lu, Zenan Huang, Junbo Zhao, Lin Liu, Zhenzhong Lan, Bei Yu, Jianguo Li
cs.AI
papers.abstract
Die Mixture of Experts (MoE)-Architektur ist ein Eckpfeiler moderner, state-of-the-art (SOTA) großer Sprachmodelle (LLMs). MoE-Modelle ermöglichen Skalierbarkeit durch spärliche Parameteraktivierung. Traditionelle MoE-Architekturen verwenden jedoch homogene Experten einheitlicher Größe, die eine feste Anzahl von Parametern unabhängig von der Eingabekomplexität aktivieren, was die Recheneffizienz einschränkt. Um diese Einschränkung zu überwinden, führen wir Grove MoE ein, eine neuartige Architektur, die Experten unterschiedlicher Größe integriert, inspiriert von der heterogenen big.LITTLE-CPU-Architektur. Diese Architektur verfügt über neuartige adjugierte Experten mit einem dynamischen Aktivierungsmechanismus, der eine Erweiterung der Modellkapazität bei gleichzeitig überschaubarem Rechenaufwand ermöglicht. Aufbauend auf dieser Architektur präsentieren wir GroveMoE-Base und GroveMoE-Inst, 33B-Parameter-LLMs, die durch eine Upcycling-Strategie auf das Qwen3-30B-A3B-Base-Modell während des mittleren und nachträglichen Trainings entwickelt wurden. GroveMoE-Modelle aktivieren dynamisch 3,14–3,28 Milliarden Parameter basierend auf der Token-Komplexität und erreichen eine Leistung, die mit SOTA Open-Source-Modellen ähnlicher oder sogar größerer Größe vergleichbar ist.
English
The Mixture of Experts (MoE) architecture is a cornerstone of modern
state-of-the-art (SOTA) large language models (LLMs). MoE models facilitate
scalability by enabling sparse parameter activation. However, traditional MoE
architecture uses homogeneous experts of a uniform size, activating a fixed
number of parameters irrespective of input complexity and thus limiting
computational efficiency. To overcome this limitation, we introduce Grove MoE,
a novel architecture incorporating experts of varying sizes, inspired by the
heterogeneous big.LITTLE CPU architecture. This architecture features novel
adjugate experts with a dynamic activation mechanism, enabling model capacity
expansion while maintaining manageable computational overhead. Building on this
architecture, we present GroveMoE-Base and GroveMoE-Inst, 33B-parameter LLMs
developed by applying an upcycling strategy to the Qwen3-30B-A3B-Base model
during mid-training and post-training. GroveMoE models dynamically activate
3.14-3.28B parameters based on token complexity and achieve performance
comparable to SOTA open-source models of similar or even larger size.