OmniMoE : Un modèle de mélange d'experts efficace par l'orchestration d'experts atomiques à grande échelle

Résumé

Les architectures Mixture-of-Experts (MoE) évoluent vers une granularité plus fine pour améliorer l'efficacité des paramètres. Cependant, les conceptions MoE existantes sont confrontées à un compromis inhérent entre la granularité de la spécialisation des experts et l'efficacité d'exécution matérielle. Nous proposons OmniMoE, un framework co-conçu système-algorithme qui pousse la granularité des experts à son extrême logique. OmniMoE introduit des Experts Atomiques au niveau vectoriel, permettant un routage et une exécution évolutifs au sein d'une seule couche MoE, tout en conservant une branche MLP dense partagée pour le traitement généraliste. Bien que cette conception atomique maximise la capacité, elle pose de sérieux défis pour la complexité du routage et l'accès mémoire. Pour y remédier, OmniMoE adopte une co-conception système-algorithme : (i) un Routeur à Produit Cartésien qui décompose l'espace massif d'indices pour réduire la complexité du routage de O(N) à O(√N) ; et (ii) un Ordonnancement Centré sur les Experts qui inverse l'ordre d'exécution pour transformer des recherches dispersées et limitées par la mémoire en opérations matricielles denses efficaces. Validé sur sept benchmarks, OmniMoE (avec 1,7 milliard de paramètres actifs) atteint une précision zero-shot de 50,9 % sur sept benchmarks, surpassant les approches à granularité grossière (ex. DeepSeekMoE) et fine (ex. PEER). Fait crucial, OmniMoE réduit la latence d'inférence de 73 ms à 6,7 ms (une accélération de 10,9 fois) par rapport à PEER, démontrant qu'un MoE à granularité fine à grande échelle peut être rapide et précis. Notre code est open-source à l'adresse https://github.com/flash-algo/omni-moe.

English

Mixture-of-Experts (MoE) architectures are evolving towards finer granularity to improve parameter efficiency. However, existing MoE designs face an inherent trade-off between the granularity of expert specialization and hardware execution efficiency. We propose OmniMoE, a system-algorithm co-designed framework that pushes expert granularity to its logical extreme. OmniMoE introduces vector-level Atomic Experts, enabling scalable routing and execution within a single MoE layer, while retaining a shared dense MLP branch for general-purpose processing. Although this atomic design maximizes capacity, it poses severe challenges for routing complexity and memory access. To address these, OmniMoE adopts a system-algorithm co-design: (i) a Cartesian Product Router that decomposes the massive index space to reduce routing complexity from O(N) to O(sqrt(N)); and (ii) Expert-Centric Scheduling that inverts the execution order to turn scattered, memory-bound lookups into efficient dense matrix operations. Validated on seven benchmarks, OmniMoE (with 1.7B active parameters) achieves 50.9% zero-shot accuracy across seven benchmarks, outperforming coarse-grained (e.g., DeepSeekMoE) and fine-grained (e.g., PEER) baselines. Crucially, OmniMoE reduces inference latency from 73ms to 6.7ms (a 10.9-fold speedup) compared to PEER, demonstrating that massive-scale fine-grained MoE can be fast and accurate. Our code is open-sourced at https://github.com/flash-algo/omni-moe.

OmniMoE : Un modèle de mélange d'experts efficace par l'orchestration d'experts atomiques à grande échelle

OmniMoE: An Efficient MoE by Orchestrating Atomic Experts at Scale

Résumé

Support