Grove MoE: К эффективным и превосходным MoE LLM с использованием присоединённых экспертов
Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts
August 11, 2025
Авторы: Haoyuan Wu, Haoxing Chen, Xiaodong Chen, Zhanchao Zhou, Tieyuan Chen, Yihong Zhuang, Guoshan Lu, Zenan Huang, Junbo Zhao, Lin Liu, Zhenzhong Lan, Bei Yu, Jianguo Li
cs.AI
Аннотация
Архитектура Mixture of Experts (MoE) является ключевым элементом современных передовых (SOTA) крупных языковых моделей (LLM). Модели MoE обеспечивают масштабируемость за счет разреженной активации параметров. Однако традиционная архитектура MoE использует однородные эксперты фиксированного размера, активируя постоянное количество параметров независимо от сложности входных данных, что ограничивает вычислительную эффективность. Чтобы преодолеть это ограничение, мы представляем Grove MoE — новую архитектуру, включающую экспертов различного размера, вдохновленную гетерогенной архитектурой процессоров big.LITTLE. Эта архитектура включает новые присоединенные эксперты с динамическим механизмом активации, что позволяет расширять емкость модели, сохраняя при этом управляемые вычислительные затраты. На основе этой архитектуры мы представляем GroveMoE-Base и GroveMoE-Inst — 33B-параметрические LLM, разработанные с использованием стратегии апсайклинга модели Qwen3-30B-A3B-Base на этапах середины и завершения обучения. Модели GroveMoE динамически активируют 3.14–3.28 миллиарда параметров в зависимости от сложности токенов и демонстрируют производительность, сопоставимую с передовыми открытыми моделями аналогичного или даже большего размера.
English
The Mixture of Experts (MoE) architecture is a cornerstone of modern
state-of-the-art (SOTA) large language models (LLMs). MoE models facilitate
scalability by enabling sparse parameter activation. However, traditional MoE
architecture uses homogeneous experts of a uniform size, activating a fixed
number of parameters irrespective of input complexity and thus limiting
computational efficiency. To overcome this limitation, we introduce Grove MoE,
a novel architecture incorporating experts of varying sizes, inspired by the
heterogeneous big.LITTLE CPU architecture. This architecture features novel
adjugate experts with a dynamic activation mechanism, enabling model capacity
expansion while maintaining manageable computational overhead. Building on this
architecture, we present GroveMoE-Base and GroveMoE-Inst, 33B-parameter LLMs
developed by applying an upcycling strategy to the Qwen3-30B-A3B-Base model
during mid-training and post-training. GroveMoE models dynamically activate
3.14-3.28B parameters based on token complexity and achieve performance
comparable to SOTA open-source models of similar or even larger size.