Modelli di Autonomia degli Esperti
Autonomy-of-Experts Models
January 22, 2025
Autori: Ang Lv, Ruobing Xie, Yining Qian, Songhao Wu, Xingwu Sun, Zhanhui Kang, Di Wang, Rui Yan
cs.AI
Abstract
I modelli Mixture-of-Experts (MoE) utilizzano principalmente un router per assegnare i token a specifici moduli esperti, attivando solo parametri parziali e superando spesso i modelli densi. Sosteniamo che la separazione tra la presa di decisione del router e l'esecuzione degli esperti sia una questione critica ma spesso trascurata, che porta a una selezione degli esperti subottimale e a un apprendimento inefficace. Per affrontare questo problema, proponiamo Autonomy-of-Experts (AoE), un nuovo paradigma MoE in cui gli esperti selezionano autonomamente se stessi per elaborare gli input. AoE si basa sull'idea che un esperto sia consapevole della propria capacità di elaborare efficacemente un token, consapevolezza riflessa nella scala delle sue attivazioni interne. In AoE, i router vengono rimossi; al contrario, gli esperti pre-calcolano le attivazioni interne per gli input e vengono classificati in base alle loro norme di attivazione. Solo gli esperti con il punteggio più alto procedono con il passaggio in avanti, mentre gli altri vengono annullati. Il sovraccarico del pre-calcolo delle attivazioni viene ridotto attraverso una fattorizzazione dei pesi a basso rango. Questo approccio di autovalutazione-e-confronto-con-il-compagno garantisce un'ottimizzazione della selezione degli esperti e un apprendimento efficace. Pre-alleniamo modelli linguistici con 700M fino a 4B di parametri, dimostrando che AoE supera i modelli MoE tradizionali con efficienza comparabile.
English
Mixture-of-Experts (MoE) models mostly use a router to assign tokens to
specific expert modules, activating only partial parameters and often
outperforming dense models. We argue that the separation between the router's
decision-making and the experts' execution is a critical yet overlooked issue,
leading to suboptimal expert selection and ineffective learning. To address
this, we propose Autonomy-of-Experts (AoE), a novel MoE paradigm in which
experts autonomously select themselves to process inputs. AoE is based on the
insight that an expert is aware of its own capacity to effectively process a
token, an awareness reflected in the scale of its internal activations. In AoE,
routers are removed; instead, experts pre-compute internal activations for
inputs and are ranked based on their activation norms. Only the top-ranking
experts proceed with the forward pass, while the others abort. The overhead of
pre-computing activations is reduced through a low-rank weight factorization.
This self-evaluating-then-partner-comparing approach ensures improved expert
selection and effective learning. We pre-train language models having 700M up
to 4B parameters, demonstrating that AoE outperforms traditional MoE models
with comparable efficiency.Summary
AI-Generated Summary