ChatPaper.aiChatPaper

Grove MoE: Rumo a MoEs Eficientes e Superiores em LLMs com Especialistas Adjuntos

Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts

August 11, 2025
Autores: Haoyuan Wu, Haoxing Chen, Xiaodong Chen, Zhanchao Zhou, Tieyuan Chen, Yihong Zhuang, Guoshan Lu, Zenan Huang, Junbo Zhao, Lin Liu, Zhenzhong Lan, Bei Yu, Jianguo Li
cs.AI

Resumo

A arquitetura Mixture of Experts (MoE) é um pilar fundamental dos modernos modelos de linguagem de grande escala (LLMs) de última geração (SOTA). Os modelos MoE facilitam a escalabilidade ao permitir a ativação esparsa de parâmetros. No entanto, a arquitetura MoE tradicional utiliza especialistas homogêneos de tamanho uniforme, ativando um número fixo de parâmetros independentemente da complexidade da entrada, o que limita a eficiência computacional. Para superar essa limitação, introduzimos o Grove MoE, uma nova arquitetura que incorpora especialistas de tamanhos variados, inspirada na arquitetura heterogênea de CPUs big.LITTLE. Essa arquitetura apresenta especialistas adjuntos inovadores com um mecanismo de ativação dinâmica, permitindo a expansão da capacidade do modelo enquanto mantém uma sobrecarga computacional gerenciável. Com base nessa arquitetura, apresentamos os modelos GroveMoE-Base e GroveMoE-Inst, LLMs com 33 bilhões de parâmetros desenvolvidos aplicando uma estratégia de upcycling ao modelo Qwen3-30B-A3B-Base durante o meio e o pós-treinamento. Os modelos GroveMoE ativam dinamicamente 3,14 a 3,28 bilhões de parâmetros com base na complexidade dos tokens e alcançam desempenho comparável aos modelos SOTA de código aberto de tamanho similar ou até maior.
English
The Mixture of Experts (MoE) architecture is a cornerstone of modern state-of-the-art (SOTA) large language models (LLMs). MoE models facilitate scalability by enabling sparse parameter activation. However, traditional MoE architecture uses homogeneous experts of a uniform size, activating a fixed number of parameters irrespective of input complexity and thus limiting computational efficiency. To overcome this limitation, we introduce Grove MoE, a novel architecture incorporating experts of varying sizes, inspired by the heterogeneous big.LITTLE CPU architecture. This architecture features novel adjugate experts with a dynamic activation mechanism, enabling model capacity expansion while maintaining manageable computational overhead. Building on this architecture, we present GroveMoE-Base and GroveMoE-Inst, 33B-parameter LLMs developed by applying an upcycling strategy to the Qwen3-30B-A3B-Base model during mid-training and post-training. GroveMoE models dynamically activate 3.14-3.28B parameters based on token complexity and achieve performance comparable to SOTA open-source models of similar or even larger size.
PDF252August 12, 2025