Grove MoE: Hacia Modelos de Lenguaje con Expertos Mixtos Eficientes y Superiores mediante Expertos Adjuntos
Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts
August 11, 2025
Autores: Haoyuan Wu, Haoxing Chen, Xiaodong Chen, Zhanchao Zhou, Tieyuan Chen, Yihong Zhuang, Guoshan Lu, Zenan Huang, Junbo Zhao, Lin Liu, Zhenzhong Lan, Bei Yu, Jianguo Li
cs.AI
Resumen
La arquitectura Mixture of Experts (MoE) es un pilar fundamental de los modelos de lenguaje grandes (LLMs) más avanzados del estado del arte (SOTA). Los modelos MoE facilitan la escalabilidad al permitir la activación dispersa de parámetros. Sin embargo, la arquitectura MoE tradicional utiliza expertos homogéneos de un tamaño uniforme, activando un número fijo de parámetros independientemente de la complejidad de la entrada, lo que limita la eficiencia computacional. Para superar esta limitación, presentamos Grove MoE, una arquitectura novedosa que incorpora expertos de diversos tamaños, inspirada en la arquitectura heterogénea de CPU big.LITTLE. Esta arquitectura incluye expertos adjuntos con un mecanismo de activación dinámica, permitiendo la expansión de la capacidad del modelo mientras se mantiene un sobrecosto computacional manejable. Basándonos en esta arquitectura, presentamos GroveMoE-Base y GroveMoE-Inst, modelos LLM de 33B parámetros desarrollados aplicando una estrategia de reciclaje al modelo Qwen3-30B-A3B-Base durante la mitad y después del entrenamiento. Los modelos GroveMoE activan dinámicamente entre 3.14 y 3.28B parámetros según la complejidad del token y logran un rendimiento comparable a los modelos SOTA de código abierto de tamaño similar o incluso mayor.
English
The Mixture of Experts (MoE) architecture is a cornerstone of modern
state-of-the-art (SOTA) large language models (LLMs). MoE models facilitate
scalability by enabling sparse parameter activation. However, traditional MoE
architecture uses homogeneous experts of a uniform size, activating a fixed
number of parameters irrespective of input complexity and thus limiting
computational efficiency. To overcome this limitation, we introduce Grove MoE,
a novel architecture incorporating experts of varying sizes, inspired by the
heterogeneous big.LITTLE CPU architecture. This architecture features novel
adjugate experts with a dynamic activation mechanism, enabling model capacity
expansion while maintaining manageable computational overhead. Building on this
architecture, we present GroveMoE-Base and GroveMoE-Inst, 33B-parameter LLMs
developed by applying an upcycling strategy to the Qwen3-30B-A3B-Base model
during mid-training and post-training. GroveMoE models dynamically activate
3.14-3.28B parameters based on token complexity and achieve performance
comparable to SOTA open-source models of similar or even larger size.