DynaMoE: Attivazione Dinamica a Livello di Token degli Esperti con Capacità Adattiva Stratificata per le Reti Neurali Mixture-of-Experts
DynaMoE: Dynamic Token-Level Expert Activation with Layer-Wise Adaptive Capacity for Mixture-of-Experts Neural Networks
March 2, 2026
Autori: Gökdeniz Gülmez
cs.AI
Abstract
Le architetture Mixture-of-Experts (MoE) sono emerse come un paradigma potente per scalare le reti neurali mantenendo l'efficienza computazionale. Tuttavia, le implementazioni MoE standard si basano su due assunzioni di progetto rigide: (1) un routing Top-K fisso in cui vengono attivati esattamente K esperti per token, e (2) un'allocazione uniforme degli esperti attraverso tutti i livelli. Questo articolo introduce DynaMoE, un nuovo framework MoE che rilassa entrambi i vincoli attraverso un'attivazione dinamica degli esperti a livello di token e un'allocazione adattiva della capacità per strati. DynaMoE introduce un meccanismo di routing basato su principi teorici in cui il numero di esperti attivi per token varia in base alla complessità dell'input. Contemporaneamente, il framework implementa sei strategie di scheduling distinte per distribuire la capacità degli esperti lungo la profondità della rete, includendo pattern discendenti, ascendenti, piramidali e a onda. Analizziamo teoricamente i guadagni di espressività del routing dinamico e deriviamo limiti sull'efficienza computazionale. Attraverso esperimenti estesi su MNIST, Fashion-MNIST, CIFAR-10 (classificazione di immagini) e Recycling-the-Web (modellazione del linguaggio) su molteplici scale di modelli, dimostriamo che DynaMoE raggiunge un'efficienza parametrica superiore rispetto ai baseline statici. La nostra scoperta principale è che gli schedule ottimali degli esperti sono dipendenti dal compito e dalla scala: gli schedule discendenti (che concentrano la capacità negli strati iniziali) superano i baseline uniformi nella classificazione di immagini. Per la modellazione del linguaggio, gli schedule ottimali variano in base alla dimensione del modello: discendenti per Tiny, ascendenti per Small e uniformi per Medium. Inoltre, il routing dinamico riduce la varianza del gradiente durante l'addestramento, portando a una migliore stabilità della convergenza. DynaMoE stabilisce un nuovo framework per il calcolo adattivo nelle reti neurali, fornendo una guida basata su principi per la progettazione di architetture MoE.
English
Mixture-of-Experts (MoE) architectures have emerged as a powerful paradigm for scaling neural networks while maintaining computational efficiency. However, standard MoE implementations rely on two rigid design assumptions: (1) fixed Top-K routing where exactly K experts are activated per token, and (2) uniform expert allocation across all layers. This paper introduces DynaMoE, a novel MoE framework that relaxes both constraints through dynamic token-level expert activation and layer-wise adaptive capacity allocation. DynaMoE introduces a principled routing mechanism where the number of active experts per token varies based on input complexity. Concurrently, the framework implements six distinct scheduling strategies for distributing expert capacity across network depth, including descending, ascending, pyramid, and wave patterns. We theoretically analyze the expressivity gains of dynamic routing and derive bounds on computational efficiency. Through extensive experiments on MNIST, Fashion-MNIST, CIFAR-10 (image classification), and Recycling-the-Web (language modeling) across multiple model scales, we demonstrate that DynaMoE achieves superior parameter efficiency compared to static baselines. Our key finding is that optimal expert schedules are task- and scale-dependent: descending schedules (concentrating capacity in early layers) outperform uniform baselines on image classification. For language modeling, optimal schedules vary by model size, descending for Tiny, ascending for Small, and uniform for Medium. Furthermore, dynamic routing reduces gradient variance during training, leading to improved convergence stability. DynaMoE establishes a new framework for adaptive computation in neural networks, providing principled guidance for MoE architecture design.