OmniMoE: Um MoE Eficiente por meio da Orquestração de Especialistas Atômicos em Escala

Resumo

As arquiteturas Mixture-of-Experts (MoE) estão evoluindo para uma granularidade mais fina para melhorar a eficiência de parâmetros. No entanto, os projetos de MoE existentes enfrentam um trade-off inerente entre a granularidade da especialização dos especialistas e a eficiência de execução em hardware. Propomos o OmniMoE, uma estrutura de co-projeto sistema-algoritmo que leva a granularidade dos especialistas ao seu extremo lógico. O OmniMoE introduz Especialistas Atômicos em nível vetorial, permitindo roteamento e execução escaláveis dentro de uma única camada MoE, enquanto mantém um ramo denso compartilhado de MLP para processamento de propósito geral. Embora este design atômico maximize a capacidade, ele impõe sérios desafios para a complexidade de roteamento e o acesso à memória. Para resolver isso, o OmniMoE adota um co-projeto sistema-algoritmo: (i) um Roteador de Produto Cartesiano que decompõe o espaço massivo de índices para reduzir a complexidade de roteamento de O(N) para O(√N); e (ii) um Escalonamento Centrado no Especialista que inverte a ordem de execução para transformar consultas espalhadas e limitadas por memória em operações eficientes de matriz densa. Validado em sete benchmarks, o OmniMoE (com 1,7B de parâmetros ativos) alcança 50,9% de precisão zero-shot nos sete benchmarks, superando as linhas de base de granularidade grossa (ex: DeepSeekMoE) e granularidade fina (ex: PEER). Crucialmente, o OmniMoE reduz a latência de inferência de 73ms para 6,7ms (uma aceleração de 10,9 vezes) em comparação com o PEER, demonstrando que MoE de granularidade fina em larga escala pode ser rápido e preciso. Nosso código é de código aberto em https://github.com/flash-algo/omni-moe.

English

Mixture-of-Experts (MoE) architectures are evolving towards finer granularity to improve parameter efficiency. However, existing MoE designs face an inherent trade-off between the granularity of expert specialization and hardware execution efficiency. We propose OmniMoE, a system-algorithm co-designed framework that pushes expert granularity to its logical extreme. OmniMoE introduces vector-level Atomic Experts, enabling scalable routing and execution within a single MoE layer, while retaining a shared dense MLP branch for general-purpose processing. Although this atomic design maximizes capacity, it poses severe challenges for routing complexity and memory access. To address these, OmniMoE adopts a system-algorithm co-design: (i) a Cartesian Product Router that decomposes the massive index space to reduce routing complexity from O(N) to O(sqrt(N)); and (ii) Expert-Centric Scheduling that inverts the execution order to turn scattered, memory-bound lookups into efficient dense matrix operations. Validated on seven benchmarks, OmniMoE (with 1.7B active parameters) achieves 50.9% zero-shot accuracy across seven benchmarks, outperforming coarse-grained (e.g., DeepSeekMoE) and fine-grained (e.g., PEER) baselines. Crucially, OmniMoE reduces inference latency from 73ms to 6.7ms (a 10.9-fold speedup) compared to PEER, demonstrating that massive-scale fine-grained MoE can be fast and accurate. Our code is open-sourced at https://github.com/flash-algo/omni-moe.

OmniMoE: Um MoE Eficiente por meio da Orquestração de Especialistas Atômicos em Escala

OmniMoE: An Efficient MoE by Orchestrating Atomic Experts at Scale

Resumo

Support