DynaMoE : Activation dynamique d'experts au niveau des tokens avec capacité adaptative par couche pour les réseaux neuronaux de type mixture d'experts

Résumé

Les architectures Mixture-of-Experts (MoE) sont apparues comme un paradigme puissant pour la mise à l'échelle des réseaux neuronaux tout en maintenant l'efficacité computationnelle. Cependant, les implémentations standard de MoE reposent sur deux hypothèses de conception rigides : (1) un routage Top-K fixe où exactement K experts sont activés par token, et (2) une allocation uniforme des experts à travers toutes les couches. Cet article présente DynaMoE, un nouveau cadre MoE qui assouplit ces deux contraintes via une activation dynamique des experts au niveau du token et une allocation de capacité adaptative par couche. DynaMoE introduit un mécanisme de routage fondé sur des principes où le nombre d'experts actifs par token varie en fonction de la complexité de l'entrée. Parallèlement, le cadre met en œuvre six stratégies distinctes de planification pour répartir la capacité des experts en profondeur du réseau, incluant des motifs descendants, ascendants, pyramidaux et ondulatoires. Nous analysons théoriquement les gains en expressivité du routage dynamique et dérivons des bornes sur l'efficacité computationnelle. À travers des expériences approfondies sur MNIST, Fashion-MNIST, CIFAR-10 (classification d'images) et Recycling-the-Web (modélisation du langage) à plusieurs échelles de modèles, nous démontrons que DynaMoE atteint une efficacité paramétrique supérieure par rapport aux lignes de base statiques. Notre principal résultat est que les planifications optimales des experts dépendent de la tâche et de l'échelle : les planifications descendantes (concentrant la capacité dans les premières couches) surpassent les lignes de base uniformes en classification d'images. Pour la modélisation du langage, les planifications optimales varient selon la taille du modèle : descendante pour Tiny, ascendante pour Small et uniforme pour Medium. De plus, le routage dynamique réduit la variance du gradient pendant l'entraînement, conduisant à une meilleure stabilité de convergence. DynaMoE établit un nouveau cadre pour le calcul adaptatif dans les réseaux neuronaux, fournissant des directives fondées pour la conception d'architectures MoE.

English

Mixture-of-Experts (MoE) architectures have emerged as a powerful paradigm for scaling neural networks while maintaining computational efficiency. However, standard MoE implementations rely on two rigid design assumptions: (1) fixed Top-K routing where exactly K experts are activated per token, and (2) uniform expert allocation across all layers. This paper introduces DynaMoE, a novel MoE framework that relaxes both constraints through dynamic token-level expert activation and layer-wise adaptive capacity allocation. DynaMoE introduces a principled routing mechanism where the number of active experts per token varies based on input complexity. Concurrently, the framework implements six distinct scheduling strategies for distributing expert capacity across network depth, including descending, ascending, pyramid, and wave patterns. We theoretically analyze the expressivity gains of dynamic routing and derive bounds on computational efficiency. Through extensive experiments on MNIST, Fashion-MNIST, CIFAR-10 (image classification), and Recycling-the-Web (language modeling) across multiple model scales, we demonstrate that DynaMoE achieves superior parameter efficiency compared to static baselines. Our key finding is that optimal expert schedules are task- and scale-dependent: descending schedules (concentrating capacity in early layers) outperform uniform baselines on image classification. For language modeling, optimal schedules vary by model size, descending for Tiny, ascending for Small, and uniform for Medium. Furthermore, dynamic routing reduces gradient variance during training, leading to improved convergence stability. DynaMoE establishes a new framework for adaptive computation in neural networks, providing principled guidance for MoE architecture design.

DynaMoE : Activation dynamique d'experts au niveau des tokens avec capacité adaptative par couche pour les réseaux neuronaux de type mixture d'experts

DynaMoE: Dynamic Token-Level Expert Activation with Layer-Wise Adaptive Capacity for Mixture-of-Experts Neural Networks

Résumé

Support