ChatPaper.aiChatPaper

Router Ricorrente Strato per Strato per il Modello a Miscela di Esperti

Layerwise Recurrent Router for Mixture-of-Experts

August 13, 2024
Autori: Zihan Qiu, Zeyu Huang, Shuang Cheng, Yizhi Zhou, Zili Wang, Ivan Titov, Jie Fu
cs.AI

Abstract

Il ridimensionamento dei grandi modelli linguistici (LLM) ha rivoluzionato le loro capacità in vari compiti, ma questa crescita deve essere accompagnata da strategie computazionali efficienti. L'architettura Mixture-of-Experts (MoE) si distingue per la sua capacità di scalare le dimensioni del modello senza aumentare significativamente i costi di addestramento. Nonostante i loro vantaggi, gli attuali modelli MoE spesso mostrano inefficienza nei parametri. Ad esempio, un LLM basato su MoE pre-addestrato con 52 miliardi di parametri potrebbe performare in modo comparabile a un modello standard con 6,7 miliardi di parametri. Essendo una parte cruciale di MoE, i router attuali in diversi strati assegnano i token in modo indipendente senza sfruttare le informazioni storiche di routing, potenzialmente portando a combinazioni subottimali token-esperto e al problema dell'inefficienza dei parametri. Per alleviare questo problema, introduciamo il Layerwise Recurrent Router for Mixture-of-Experts (RMoE). RMoE sfrutta una Gated Recurrent Unit (GRU) per stabilire dipendenze tra le decisioni di routing attraverso strati consecutivi. Tale ricorrenza strato per strato può essere calcolata in modo efficiente in parallelo per i token di input e introduce costi negoziabili. Le nostre estese valutazioni empiriche dimostrano che i modelli linguistici basati su RMoE superano costantemente una gamma di modelli di riferimento. Inoltre, RMoE integra una nuova fase di calcolo ortogonale ai metodi esistenti, consentendo una compatibilità senza soluzione di continuità con altre architetture MoE. Le nostre analisi attribuiscono i guadagni di RMoE alla sua efficace condivisione di informazioni tra strati, che migliora anche la selezione e la diversità degli esperti. Il nostro codice è disponibile su https://github.com/qiuzh20/RMoE.
English
The scaling of large language models (LLMs) has revolutionized their capabilities in various tasks, yet this growth must be matched with efficient computational strategies. The Mixture-of-Experts (MoE) architecture stands out for its ability to scale model size without significantly increasing training costs. Despite their advantages, current MoE models often display parameter inefficiency. For instance, a pre-trained MoE-based LLM with 52 billion parameters might perform comparably to a standard model with 6.7 billion parameters. Being a crucial part of MoE, current routers in different layers independently assign tokens without leveraging historical routing information, potentially leading to suboptimal token-expert combinations and the parameter inefficiency problem. To alleviate this issue, we introduce the Layerwise Recurrent Router for Mixture-of-Experts (RMoE). RMoE leverages a Gated Recurrent Unit (GRU) to establish dependencies between routing decisions across consecutive layers. Such layerwise recurrence can be efficiently parallelly computed for input tokens and introduces negotiable costs. Our extensive empirical evaluations demonstrate that RMoE-based language models consistently outperform a spectrum of baseline models. Furthermore, RMoE integrates a novel computation stage orthogonal to existing methods, allowing seamless compatibility with other MoE architectures. Our analyses attribute RMoE's gains to its effective cross-layer information sharing, which also improves expert selection and diversity. Our code is at https://github.com/qiuzh20/RMoE
PDF322November 28, 2024