OmniMoE: Een efficiënt MoE-systeem door het grootschalig aansturen van atomaire experts

Samenvatting

Mixture-of-Experts (MoE)-architecturen evolueren naar fijnere granulariteit om de parameter-efficiëntie te verbeteren. Bestaande MoE-ontwerpen kampen echter met een inherente afweging tussen de granulariteit van expertspecialisatie en de hardware-uitvoeringsefficiëntie. Wij stellen OmniMoE voor, een systeem-algoritme co-ontworpen raamwerk dat de expertgranulariteit naar het logische uiterste doorvoert. OmniMoE introduceert vector-level Atoom Experts, waardoor schaalbare routering en uitvoering binnen een enkele MoE-laag mogelijk wordt, terwijl een gedeelde dense MLP-tak behouden blijft voor algemene verwerking. Hoewel dit atomaire ontwerp de capaciteit maximaliseert, vormt het ernstige uitdagingen voor routeringscomplexiteit en geheugentoegang. Om deze aan te pakken, hanteert OmniMoE een systeem-algoritme co-ontwerp: (i) een Cartesiaanse Product Router die de enorme indexruimte decomposeert om de routeringscomplexiteit van O(N) naar O(√N) te reduceren; en (ii) Expert-Centric Scheduling die de uitvoeringsvolgorde omkeert om verspreide, geheugengebonden opzoekoperaties om te zetten in efficiënte dense matrixbewerkingen. Getoetst op zeven benchmarks behaalt OmniMoE (met 1.7B actieve parameters) een 50.9% zero-shot nauwkeurigheid over zeven benchmarks, en overtreft daarmee coarse-grained (bv. DeepSeekMoE) en fine-grained (bv. PEER) referentiemodellen. Cruciaal is dat OmniMoE de inferentielatentie verlaagt van 73ms naar 6.7ms (een 10.9-voudige versnelling) in vergelijking met PEER, wat aantoont dat grootschalige fijnkorrelige MoE zowel snel als nauwkeurig kan zijn. Onze code is open-source beschikbaar op https://github.com/flash-algo/omni-moe.

English

Mixture-of-Experts (MoE) architectures are evolving towards finer granularity to improve parameter efficiency. However, existing MoE designs face an inherent trade-off between the granularity of expert specialization and hardware execution efficiency. We propose OmniMoE, a system-algorithm co-designed framework that pushes expert granularity to its logical extreme. OmniMoE introduces vector-level Atomic Experts, enabling scalable routing and execution within a single MoE layer, while retaining a shared dense MLP branch for general-purpose processing. Although this atomic design maximizes capacity, it poses severe challenges for routing complexity and memory access. To address these, OmniMoE adopts a system-algorithm co-design: (i) a Cartesian Product Router that decomposes the massive index space to reduce routing complexity from O(N) to O(sqrt(N)); and (ii) Expert-Centric Scheduling that inverts the execution order to turn scattered, memory-bound lookups into efficient dense matrix operations. Validated on seven benchmarks, OmniMoE (with 1.7B active parameters) achieves 50.9% zero-shot accuracy across seven benchmarks, outperforming coarse-grained (e.g., DeepSeekMoE) and fine-grained (e.g., PEER) baselines. Crucially, OmniMoE reduces inference latency from 73ms to 6.7ms (a 10.9-fold speedup) compared to PEER, demonstrating that massive-scale fine-grained MoE can be fast and accurate. Our code is open-sourced at https://github.com/flash-algo/omni-moe.

OmniMoE: Een efficiënt MoE-systeem door het grootschalig aansturen van atomaire experts

OmniMoE: An Efficient MoE by Orchestrating Atomic Experts at Scale

Samenvatting

Support