Grove MoE: Hacia Modelos de Lenguaje con Expertos Mixtos Eficientes y Superiores mediante Expertos Adjuntos

Resumen

La arquitectura Mixture of Experts (MoE) es un pilar fundamental de los modelos de lenguaje grandes (LLMs) más avanzados del estado del arte (SOTA). Los modelos MoE facilitan la escalabilidad al permitir la activación dispersa de parámetros. Sin embargo, la arquitectura MoE tradicional utiliza expertos homogéneos de un tamaño uniforme, activando un número fijo de parámetros independientemente de la complejidad de la entrada, lo que limita la eficiencia computacional. Para superar esta limitación, presentamos Grove MoE, una arquitectura novedosa que incorpora expertos de diversos tamaños, inspirada en la arquitectura heterogénea de CPU big.LITTLE. Esta arquitectura incluye expertos adjuntos con un mecanismo de activación dinámica, permitiendo la expansión de la capacidad del modelo mientras se mantiene un sobrecosto computacional manejable. Basándonos en esta arquitectura, presentamos GroveMoE-Base y GroveMoE-Inst, modelos LLM de 33B parámetros desarrollados aplicando una estrategia de reciclaje al modelo Qwen3-30B-A3B-Base durante la mitad y después del entrenamiento. Los modelos GroveMoE activan dinámicamente entre 3.14 y 3.28B parámetros según la complejidad del token y logran un rendimiento comparable a los modelos SOTA de código abierto de tamaño similar o incluso mayor.

English

The Mixture of Experts (MoE) architecture is a cornerstone of modern state-of-the-art (SOTA) large language models (LLMs). MoE models facilitate scalability by enabling sparse parameter activation. However, traditional MoE architecture uses homogeneous experts of a uniform size, activating a fixed number of parameters irrespective of input complexity and thus limiting computational efficiency. To overcome this limitation, we introduce Grove MoE, a novel architecture incorporating experts of varying sizes, inspired by the heterogeneous big.LITTLE CPU architecture. This architecture features novel adjugate experts with a dynamic activation mechanism, enabling model capacity expansion while maintaining manageable computational overhead. Building on this architecture, we present GroveMoE-Base and GroveMoE-Inst, 33B-parameter LLMs developed by applying an upcycling strategy to the Qwen3-30B-A3B-Base model during mid-training and post-training. GroveMoE models dynamically activate 3.14-3.28B parameters based on token complexity and achieve performance comparable to SOTA open-source models of similar or even larger size.

Grove MoE: Hacia Modelos de Lenguaje con Expertos Mixtos Eficientes y Superiores mediante Expertos Adjuntos

Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts

Resumen

Support