OmniMoE: Un MoE Eficiente mediante la Orquestación de Expertos Atómicos a Escala

Resumen

Las arquitecturas Mixture-of-Experts (MoE) están evolucionando hacia una granularidad más fina para mejorar la eficiencia de parámetros. Sin embargo, los diseños MoE existentes enfrentan una disyuntiva inherente entre la granularidad de la especialización de los expertos y la eficiencia de ejecución en hardware. Proponemos OmniMoE, un marco de codesarrollo sistema-algoritmo que lleva la granularidad de los expertos a su extremo lógico. OmniMoE introduce Expertos Atómicos a nivel vectorial, permitiendo un enrutamiento y ejecución escalables dentro de una única capa MoE, mientras mantiene una rama MLP densa compartida para el procesamiento de propósito general. Aunque este diseño atómico maximiza la capacidad, plantea graves desafíos para la complejidad del enrutamiento y el acceso a memoria. Para abordarlos, OmniMoE adopta un codesarrollo sistema-algoritmo: (i) un Enrutador de Producto Cartesiano que descompone el espacio masivo de índices para reducir la complejidad del enrutamiento de O(N) a O(√N); y (ii) una Planificación Centrada en Expertos que invierte el orden de ejecución para convertir las búsquedas dispersas, limitadas por memoria, en operaciones densas de matrices eficientes. Validado en siete benchmarks, OmniMoE (con 1.7B parámetros activos) logra una precisión zero-shot del 50.9% en siete benchmarks, superando a las líneas base de granularidad gruesa (por ejemplo, DeepSeekMoE) y granularidad fina (por ejemplo, PEER). Crucialmente, OmniMoE reduce la latencia de inferencia de 73 ms a 6.7 ms (una aceleración de 10.9 veces) en comparación con PEER, demostrando que MoE de granularidad fina a gran escala puede ser rápido y preciso. Nuestro código es de código abierto en https://github.com/flash-algo/omni-moe.

English

Mixture-of-Experts (MoE) architectures are evolving towards finer granularity to improve parameter efficiency. However, existing MoE designs face an inherent trade-off between the granularity of expert specialization and hardware execution efficiency. We propose OmniMoE, a system-algorithm co-designed framework that pushes expert granularity to its logical extreme. OmniMoE introduces vector-level Atomic Experts, enabling scalable routing and execution within a single MoE layer, while retaining a shared dense MLP branch for general-purpose processing. Although this atomic design maximizes capacity, it poses severe challenges for routing complexity and memory access. To address these, OmniMoE adopts a system-algorithm co-design: (i) a Cartesian Product Router that decomposes the massive index space to reduce routing complexity from O(N) to O(sqrt(N)); and (ii) Expert-Centric Scheduling that inverts the execution order to turn scattered, memory-bound lookups into efficient dense matrix operations. Validated on seven benchmarks, OmniMoE (with 1.7B active parameters) achieves 50.9% zero-shot accuracy across seven benchmarks, outperforming coarse-grained (e.g., DeepSeekMoE) and fine-grained (e.g., PEER) baselines. Crucially, OmniMoE reduces inference latency from 73ms to 6.7ms (a 10.9-fold speedup) compared to PEER, demonstrating that massive-scale fine-grained MoE can be fast and accurate. Our code is open-sourced at https://github.com/flash-algo/omni-moe.