OmniMoE: Ein effizienter MoE durch Orchestrierung atomarer Experten im großen Maßstab

Zusammenfassung

Mixture-of-Experts (MoE)-Architekturen entwickeln sich hin zu feinerer Granularität, um die Parametereffizienz zu verbessern. Bestehende MoE-Designs stehen jedoch vor einem grundsätzlichen Zielkonflikt zwischen der Granularität der Experten-Spezialisierung und der Hardware-Ausführungseffizienz. Wir stellen OmniMoE vor, einen system-algorithmisch co-designten Framework, der die Experten-Granularität auf das logische Extrem treibt. OmniMoE führt vektorebene Atomare Experten ein, die skalierbares Routing und Ausführung innerhalb einer einzelnen MoE-Schicht ermöglichen, während ein gemeinsamer dichter MLP-Zweig zur allgemeinen Verarbeitung erhalten bleibt. Obwohl dieses atomare Design die Kapazität maximiert, stellt es erhebliche Herausforderungen an die Routing-Komplexität und Speicherzugriffe. Um diese zu bewältigen, verfolgt OmniMoE einen System-Algorithmus-Co-Design-Ansatz: (i) einen kartesischen Produkt-Router, der den massiven Indexraum zerlegt, um die Routing-Komplexität von O(N) auf O(√N) zu reduzieren; und (ii) eine expertenzentrierte Planung, die die Ausführungsreihenfolge umkehrt, um verstreute, speicherlimitierte Lookups in effiziente dichte Matrixoperationen umzuwandeln. Validierungen an sieben Benchmarks zeigen, dass OmniMoE (mit 1,7B aktiven Parametern) eine Zero-Shot-Genauigkeit von 50,9 % über sieben Benchmarks erreicht und damit grobgranulare (z.B. DeepSeekMoE) sowie feingranulare (z.B. PEER) Baselines übertrifft. Entscheidend ist, dass OmniMoE die Inferenzlatenz im Vergleich zu PEER von 73 ms auf 6,7 ms reduziert (eine 10,9-fache Beschleunigung), was demonstriert, dass massiv skalierte, feingranulare MoE-Architekturen schnell und präzise sein können. Unser Code ist unter https://github.com/flash-algo/omni-moe quelloffen verfügbar.

English

Mixture-of-Experts (MoE) architectures are evolving towards finer granularity to improve parameter efficiency. However, existing MoE designs face an inherent trade-off between the granularity of expert specialization and hardware execution efficiency. We propose OmniMoE, a system-algorithm co-designed framework that pushes expert granularity to its logical extreme. OmniMoE introduces vector-level Atomic Experts, enabling scalable routing and execution within a single MoE layer, while retaining a shared dense MLP branch for general-purpose processing. Although this atomic design maximizes capacity, it poses severe challenges for routing complexity and memory access. To address these, OmniMoE adopts a system-algorithm co-design: (i) a Cartesian Product Router that decomposes the massive index space to reduce routing complexity from O(N) to O(sqrt(N)); and (ii) Expert-Centric Scheduling that inverts the execution order to turn scattered, memory-bound lookups into efficient dense matrix operations. Validated on seven benchmarks, OmniMoE (with 1.7B active parameters) achieves 50.9% zero-shot accuracy across seven benchmarks, outperforming coarse-grained (e.g., DeepSeekMoE) and fine-grained (e.g., PEER) baselines. Crucially, OmniMoE reduces inference latency from 73ms to 6.7ms (a 10.9-fold speedup) compared to PEER, demonstrating that massive-scale fine-grained MoE can be fast and accurate. Our code is open-sourced at https://github.com/flash-algo/omni-moe.

OmniMoE: Ein effizienter MoE durch Orchestrierung atomarer Experten im großen Maßstab

OmniMoE: An Efficient MoE by Orchestrating Atomic Experts at Scale

Zusammenfassung

Support