Grove MoE : Vers des modèles de langage MoE efficaces et supérieurs grâce à des experts adjoints
Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts
August 11, 2025
papers.authors: Haoyuan Wu, Haoxing Chen, Xiaodong Chen, Zhanchao Zhou, Tieyuan Chen, Yihong Zhuang, Guoshan Lu, Zenan Huang, Junbo Zhao, Lin Liu, Zhenzhong Lan, Bei Yu, Jianguo Li
cs.AI
papers.abstract
L'architecture Mixture of Experts (MoE) est une pierre angulaire des modèles de langage de grande taille (LLM) modernes à l'état de l'art (SOTA). Les modèles MoE facilitent la scalabilité en permettant une activation parcimonieuse des paramètres. Cependant, l'architecture MoE traditionnelle utilise des experts homogènes de taille uniforme, activant un nombre fixe de paramètres indépendamment de la complexité de l'entrée, ce qui limite l'efficacité computationnelle. Pour surmonter cette limitation, nous introduisons Grove MoE, une nouvelle architecture intégrant des experts de tailles variées, inspirée par l'architecture hétérogène big.LITTLE des CPU. Cette architecture comprend des experts adjugés innovants avec un mécanisme d'activation dynamique, permettant une expansion de la capacité du modèle tout en maintenant une surcharge computationnelle gérable. Sur la base de cette architecture, nous présentons GroveMoE-Base et GroveMoE-Inst, des LLM de 33 milliards de paramètres développés en appliquant une stratégie de recyclage au modèle Qwen3-30B-A3B-Base pendant et après l'entraînement. Les modèles GroveMoE activent dynamiquement 3,14 à 3,28 milliards de paramètres en fonction de la complexité des tokens et atteignent des performances comparables aux modèles open-source SOTA de taille similaire ou même plus grande.
English
The Mixture of Experts (MoE) architecture is a cornerstone of modern
state-of-the-art (SOTA) large language models (LLMs). MoE models facilitate
scalability by enabling sparse parameter activation. However, traditional MoE
architecture uses homogeneous experts of a uniform size, activating a fixed
number of parameters irrespective of input complexity and thus limiting
computational efficiency. To overcome this limitation, we introduce Grove MoE,
a novel architecture incorporating experts of varying sizes, inspired by the
heterogeneous big.LITTLE CPU architecture. This architecture features novel
adjugate experts with a dynamic activation mechanism, enabling model capacity
expansion while maintaining manageable computational overhead. Building on this
architecture, we present GroveMoE-Base and GroveMoE-Inst, 33B-parameter LLMs
developed by applying an upcycling strategy to the Qwen3-30B-A3B-Base model
during mid-training and post-training. GroveMoE models dynamically activate
3.14-3.28B parameters based on token complexity and achieve performance
comparable to SOTA open-source models of similar or even larger size.