Grove MoE: Verso MoE LLM Efficienti e Superiori con Esperti Adiugati
Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts
August 11, 2025
Autori: Haoyuan Wu, Haoxing Chen, Xiaodong Chen, Zhanchao Zhou, Tieyuan Chen, Yihong Zhuang, Guoshan Lu, Zenan Huang, Junbo Zhao, Lin Liu, Zhenzhong Lan, Bei Yu, Jianguo Li
cs.AI
Abstract
L'architettura Mixture of Experts (MoE) rappresenta un pilastro fondamentale dei moderni modelli linguistici di grandi dimensioni (LLM) all'avanguardia (SOTA). I modelli MoE favoriscono la scalabilità consentendo l'attivazione sparsa dei parametri. Tuttavia, l'architettura MoE tradizionale utilizza esperti omogenei di dimensioni uniformi, attivando un numero fisso di parametri indipendentemente dalla complessità dell'input, limitando così l'efficienza computazionale. Per superare questa limitazione, introduciamo Grove MoE, una nuova architettura che incorpora esperti di dimensioni variabili, ispirata all'architettura eterogenea big.LITTLE delle CPU. Questa architettura presenta esperti aggiunti innovativi con un meccanismo di attivazione dinamica, consentendo l'espansione della capacità del modello mantenendo un sovraccarico computazionale gestibile. Basandoci su questa architettura, presentiamo GroveMoE-Base e GroveMoE-Inst, LLM da 33 miliardi di parametri sviluppati applicando una strategia di upcycling al modello Qwen3-30B-A3B-Base durante la fase intermedia e post-allenamento. I modelli GroveMoE attivano dinamicamente 3,14-3,28 miliardi di parametri in base alla complessità dei token e raggiungono prestazioni paragonabili ai modelli open-source SOTA di dimensioni simili o addirittura maggiori.
English
The Mixture of Experts (MoE) architecture is a cornerstone of modern
state-of-the-art (SOTA) large language models (LLMs). MoE models facilitate
scalability by enabling sparse parameter activation. However, traditional MoE
architecture uses homogeneous experts of a uniform size, activating a fixed
number of parameters irrespective of input complexity and thus limiting
computational efficiency. To overcome this limitation, we introduce Grove MoE,
a novel architecture incorporating experts of varying sizes, inspired by the
heterogeneous big.LITTLE CPU architecture. This architecture features novel
adjugate experts with a dynamic activation mechanism, enabling model capacity
expansion while maintaining manageable computational overhead. Building on this
architecture, we present GroveMoE-Base and GroveMoE-Inst, 33B-parameter LLMs
developed by applying an upcycling strategy to the Qwen3-30B-A3B-Base model
during mid-training and post-training. GroveMoE models dynamically activate
3.14-3.28B parameters based on token complexity and achieve performance
comparable to SOTA open-source models of similar or even larger size.