DynaMoE: Динамическая активация экспертов на уровне токенов с послойной адаптивной емкостью для нейронных сетей типа "Смесь экспертов"

Аннотация

Архитектуры типа «смесь экспертов» (MoE) стали мощной парадигмой для масштабирования нейронных сетей при сохранении вычислительной эффективности. Однако стандартные реализации MoE опираются на два жестких проектных допущения: (1) фиксированную маршрутизацию Top-K, при которой на каждый токен активируется ровно K экспертов, и (2) равномерное распределение экспертов по всем слоям. В данной статье представлена DynaMoE — новая MoE-архитектура, которая смягчает оба ограничения за счет динамической активации экспертов на уровне токенов и адаптивного распределения ресурсов экспертов по слоям. DynaMoE вводит принципиальный механизм маршрутизации, в котором количество активных экспертов на токен варьируется в зависимости от сложности входных данных. Одновременно с этим фреймворк реализует шесть различных стратегий планирования для распределения емкости экспертов по глубине сети, включая нисходящий, восходящий, пирамидальный и волнообразный паттерны. Мы проводим теоретический анализ выигрыша в выразительной силе от динамической маршрутизации и выводим границы вычислительной эффективности. В ходе обширных экспериментов на наборах данных MNIST, Fashion-MNIST, CIFAR-10 (классификация изображений) и Recycling-the-Web (языковое моделирование) для моделей различного масштаба мы демонстрируем, что DynaMoE достигает превосходной параметрической эффективности по сравнению со статическими базовыми методами. Наш ключевой вывод заключается в том, что оптимальные стратегии распределения экспертов зависят от задачи и масштаба модели: нисходящие стратегии (концентрация ресурсов в начальных слоях) превосходят равномерное распределение в задачах классификации изображений. Для языкового моделирования оптимальные стратегии варьируются в зависимости от размера модели: нисходящая для Tiny, восходящая для Small и равномерная для Medium. Кроме того, динамическая маршрутизация снижает дисперсию градиента в процессе обучения, что приводит к повышению стабильности сходимости. DynaMoE устанавливает новую основу для адаптивных вычислений в нейронных сетях, предлагая принципиальные рекомендации для проектирования MoE-архитектур.

English

Mixture-of-Experts (MoE) architectures have emerged as a powerful paradigm for scaling neural networks while maintaining computational efficiency. However, standard MoE implementations rely on two rigid design assumptions: (1) fixed Top-K routing where exactly K experts are activated per token, and (2) uniform expert allocation across all layers. This paper introduces DynaMoE, a novel MoE framework that relaxes both constraints through dynamic token-level expert activation and layer-wise adaptive capacity allocation. DynaMoE introduces a principled routing mechanism where the number of active experts per token varies based on input complexity. Concurrently, the framework implements six distinct scheduling strategies for distributing expert capacity across network depth, including descending, ascending, pyramid, and wave patterns. We theoretically analyze the expressivity gains of dynamic routing and derive bounds on computational efficiency. Through extensive experiments on MNIST, Fashion-MNIST, CIFAR-10 (image classification), and Recycling-the-Web (language modeling) across multiple model scales, we demonstrate that DynaMoE achieves superior parameter efficiency compared to static baselines. Our key finding is that optimal expert schedules are task- and scale-dependent: descending schedules (concentrating capacity in early layers) outperform uniform baselines on image classification. For language modeling, optimal schedules vary by model size, descending for Tiny, ascending for Small, and uniform for Medium. Furthermore, dynamic routing reduces gradient variance during training, leading to improved convergence stability. DynaMoE establishes a new framework for adaptive computation in neural networks, providing principled guidance for MoE architecture design.

DynaMoE: Динамическая активация экспертов на уровне токенов с послойной адаптивной емкостью для нейронных сетей типа "Смесь экспертов"

DynaMoE: Dynamic Token-Level Expert Activation with Layer-Wise Adaptive Capacity for Mixture-of-Experts Neural Networks

Аннотация

Support