ChatPaper.aiChatPaper

DynaMoE: Dynamische Expertactivering op Tokenniveau met Laaggewijze Adaptieve Capaciteit voor Mixture-of-Experts Neurale Netwerken

DynaMoE: Dynamic Token-Level Expert Activation with Layer-Wise Adaptive Capacity for Mixture-of-Experts Neural Networks

March 2, 2026
Auteurs: Gökdeniz Gülmez
cs.AI

Samenvatting

Mixture-of-Experts (MoE)-architecturen zijn naar voren gekomen als een krachtig paradigma voor het schalen van neurale netwerken met behoud van rekenkundige efficiëntie. Standaard MoE-implementaties steunen echter op twee rigide ontwerpaannames: (1) vaste Top-K-routering waarbij precies K experts per token worden geactiveerd, en (2) uniforme experttoewijzing over alle lagen. Dit artikel introduceert DynaMoE, een nieuwe MoE-framework die beide beperkingen versoepelt door dynamische token-level expertactivatie en laaggewijze adaptieve capaciteitsallocatie. DynaMoE introduceert een principieel routeringsmechanisme waarbij het aantal actieve experts per token varieert op basis van invoercomplexiteit. Tegelijkertijd implementeert het framework zes verschillende planningsstrategieën voor het verdelen van expertcapaciteit over de netwerkdiepte, waaronder dalende, stijgende, piramide- en golfpatronen. We analyseren theoretisch de expressiviteitswinst van dynamische routering en leiden grenzen af voor de rekenkundige efficiëntie. Door middel van uitgebreide experimenten op MNIST, Fashion-MNIST, CIFAR-10 (beeldclassificatie) en Recycling-the-Web (taalmodelering) over meerdere modelschalen, tonen we aan dat DynaMoE superieure parameter efficiëntie bereikt in vergelijking met statische basislijnen. Onze belangrijkste bevinding is dat optimale expertschema's taak- en schaalafhankelijk zijn: dalende schema's (die capaciteit concentreren in vroege lagen) presteren beter dan uniforme basislijnen bij beeldclassificatie. Voor taalmodelering variëren optimale schema's per modelgrootte: dalend voor Tiny, stijgend voor Small en uniform voor Medium. Bovendien vermindert dynamische routering de variantie van de gradient tijdens de training, wat leidt tot verbeterde convergentiestabiliteit. DynaMoE vestigt een nieuw kader voor adaptieve berekening in neurale netwerken en biedt principiële richtlijnen voor MoE-architectuurontwerp.
English
Mixture-of-Experts (MoE) architectures have emerged as a powerful paradigm for scaling neural networks while maintaining computational efficiency. However, standard MoE implementations rely on two rigid design assumptions: (1) fixed Top-K routing where exactly K experts are activated per token, and (2) uniform expert allocation across all layers. This paper introduces DynaMoE, a novel MoE framework that relaxes both constraints through dynamic token-level expert activation and layer-wise adaptive capacity allocation. DynaMoE introduces a principled routing mechanism where the number of active experts per token varies based on input complexity. Concurrently, the framework implements six distinct scheduling strategies for distributing expert capacity across network depth, including descending, ascending, pyramid, and wave patterns. We theoretically analyze the expressivity gains of dynamic routing and derive bounds on computational efficiency. Through extensive experiments on MNIST, Fashion-MNIST, CIFAR-10 (image classification), and Recycling-the-Web (language modeling) across multiple model scales, we demonstrate that DynaMoE achieves superior parameter efficiency compared to static baselines. Our key finding is that optimal expert schedules are task- and scale-dependent: descending schedules (concentrating capacity in early layers) outperform uniform baselines on image classification. For language modeling, optimal schedules vary by model size, descending for Tiny, ascending for Small, and uniform for Medium. Furthermore, dynamic routing reduces gradient variance during training, leading to improved convergence stability. DynaMoE establishes a new framework for adaptive computation in neural networks, providing principled guidance for MoE architecture design.
PDF22March 7, 2026