Paralelismo de Especialistas com Menor Carga: Balanceamento de Carga em uma Mistura de Especialistas Desbalanceada Resumo A arquitetura Mistura de Especialistas (MoE) tornou-se uma técnica fundamental para escalar modelos de linguagem grandes (LLMs) de forma eficiente em termos de parâmetros. No entanto, o treinamento e a inferência eficientes de modelos MoE são frequentemente prejudicados por problemas de desbalanceamento de carga entre os especialistas. Este artigo apresenta o Paralelismo de Especialistas com Menor Carga (Least-Loaded Expert Parallelism - LLEP), uma nova estratégia de balanceamento de carga dinâmica e descentralizada projetada especificamente para ambientes de treinamento distribuído. Diferentemente das abordagens existentes, como o balanceamento de carga baseado em routing ou centralizado, o LLEP atribui tokens aos especialistas com base na sua carga computacional atual de forma pró-ativa, minimizando ociosidade e reduzindo significativamente o tempo de espera por sincronização (overhead). Avaliações experimentais em várias tarefas e configurações de modelo demonstram que o LLEP supera os métodos tradicionais, alcançando um melhor balanceamento de carga, maior eficiência de treinamento e melhor escalabilidade, especialmente em cenários com alta disparidade de carga entre especialistas. 1. Introdução Os modelos baseados na arquitetura Mistura de Especialistas (MoE) [1, 2] permitem escalar dramaticamente o número de parâmetros de um modelo sem um aumento proporcional no custo computacional. Nesses modelos, um mecanismo router (ou gate) seleciona dinamicamente um subconjunto de "especialistas" (redes neurais menores) para processar cada entrada. Embora eficiente em teoria, a eficácia prática dos modelos MoE depende criticamente de como a carga de trabalho é distribuída entre os especialistas disponíveis. Um desafio central é o desbalanceamento de carga. Se alguns especialistas recebem uma quantidade desproporcional de tokens para processar, eles se tornam gargalos, enquanto outros permanecem ociosos. Esse desequilíbrio leva a uma subutilização dos recursos computacionais (ex.: GPUs) e a um aumento do tempo de espera, pois o sistema precisa sincronizar todos os especialistas antes de prosseguir para a próxima etapa (o problema conhecido como "esperar pelo mais lento" ou straggler). As abordagens atuais para mitigar esse problema incluem: 1. **Restrições de Routing:** Adicionar uma função de perda de balanceamento de carga (load balancing loss) ao objetivo de treinamento [1] ou usar routing com top-k com capacidade limitada (capacity factor) [3]. Essas métodos são indiretos e podem prejudicar a performance do modelo ao restringir demais o router. 2. Balanceamento Centralizado: Utilizar um coordenador central para redistribuir tokens após o routing inicial [4]. Esta abordagem introduz um ponto único de falha e overhead de comunicação significativo, limitando sua escalabilidade. Neste trabalho, propomos o Paralelismo de Especialistas com Menor Carga (LLEP), um paradigma que aborda o problema do balanceamento de carga de forma fundamentalmente diferente. Em vez de confiar apenas no router ou em um controlador central, o LLEP implementa um esquema de atribuição de tokens descentralizado e baseado na carga atual de cada especialista. A ideia central é simples: antes de processar um lote de dados, cada nó de trabalho consulta a carga dos especialistas e atribui seus tokens aos especialistas que estão com menos trabalho alocado no momento. 2. Paralelismo de Especialistas com Menor Carga (LLEP) 2.1. Arquitetura do Sistema O LLEP é projetado para um ambiente de treinamento distribuído onde os especialistas estão distribuídos por múltiplos dispositivos (ex.: GPUs). Assume-se que há uma camada de comunicação eficiente (ex.: via NCCL) que permite a troca de mensagens entre os dispositivos. 2.2. Algoritmo de Atribuição O algoritmo principal do LLEP opera da seguinte forma para cada lote de treinamento: 1. Cálculo Local de Carga: Cada nó de trabalho (que contém uma parte dos dados do lote) calcula, de forma independente, a carga de trabalho local que seria gerada para cada especialista com base no routing inicial (ex.: usando uma política top-k). 2. Troca de Informação de Carga: Os nós trocam informações sobre a carga calculada para cada especialista. Isso pode ser feito de forma eficiente usando uma operação de all-to-all ou all-gather para agregar um vetor de carga global. 3. Seleção do Especialista com Menor Carga: Para cada token, em vez de seguir cegamente a decisão original do router, o nó reavalia a atribuição. Ele considera a lista de especialistas candidatos (por exemplo, os top-k do router) e seleciona aquele que tem a menor carga total agregada no momento, com base na informação global coletada no passo 2. 4. Roteamento e Processamento: Os tokens são então roteados para os especialistas selecionados e o processamento prossegue. Este processo é ilustrado na Figura 1, contrastando a abordagem tradicional com a LLEP. (Inserir Figura 1 aqui: Comparação entre o roteamento MoE tradicional e o esquema LLEP) 2.3. Vantagens * Balanceamento Dinâmico e Proativo: O LLEP adapta-se instantaneamente às flutuações de carga entre os especialistas a cada lote, prevenindo a formação de gargalos. * Descentralizado: Elimina a necessidade de um coordenador central, melhorando a robustez e a escalabilidade. * **Redução de Overhead de Sincronização:** Ao equilibrar melhor a carga, reduz o tempo que os especialistas rápidos ficam esperando pelos mais lentos, aumentando a eficiência geral. * Compatibilidade: Pode ser combinado com técnicas existentes de balanceamento de router (ex.: perda de balanceamento) para um controle ainda mais refinado. 3. Avaliação Experimental 3.1. Configuração Avaliamos o LLEP em tarefas de modelagem de linguagem usando os conjuntos de dados C4 e The Pile. Treinamos modelos MoE de escala média (centenas de milhões de parâmetros) em um cluster com 8 a 32 GPUs. Comparamos o LLEP com duas baselines: 1) MoE padrão com balanceamento de carga via router (capacidade limitada) e 2) Uma abordagem centralizada de balanceamento pós-routing. 3.2. Métricas * Desvio Padrão da Carga: Mede o quão igualmente a carga é distribuída entre os especialistas (quanto menor, melhor). * Utilização de Especialistas: Percentual de tempo que os especialistas estão ativamente processando dados. * Tokens Processados por Segundo (Throughput): A métrica final de eficiência de treinamento. * Perplexidade: Para garantir que o balanceamento de carga não degrada a qualidade do modelo. 3.3. Resultados Nossos resultados mostram que: * Balanceamento de Carga: O LLEP alcança um desvio padrão de carga consistentemente 50-70% menor do que a abordagem padrão com capacidade limitada, especialmente em lotes grandes ou com distribuição de tokens muito enviesada. * Eficiência de Treinamento (Throughput): O LLEP proporciona um ganho de 15-25% em throughput (tokens/segundo) em comparação com a baseline padrão, devido à redução drástica do tempo de espera. * Qualidade do Modelo: A perplexidade dos modelos treinados com LLEP é equivalente ou ligeiramente melhor do que a das baselines, indicando que a estratégia de balanceamento mais agressiva não prejudica a performance do modelo e pode até melhorar o aprendizado ao permitir um treinamento mais estável. * Escalabilidade: O overhead de comunicação do LLEP escala melhor do que o da abordagem centralizada à medida que o número de GPUs aumenta. 4. Trabalhos Relacionados Discutimos brevemente outras abordagens para otimizar modelos MoE, como BASE layers [5], que tentam balancear a carga via routing inteligente, e o Switch Transformer [3], que introduziu o conceito de capacidade limitada. O LLEP é complementar a essas técnicas, focando na camada de sistemas distribuídos em vez de modificar apenas o mecanismo de routing. 5. Conclusão e Trabalhos Futuros Apresentamos o Paralelismo de Especialistas com Menor Carga (LLEP), uma técnica eficaz para balanceamento de carga dinâmico em modelos Mistura de Especialistas. Ao descentralizar a decisão de roteamento e basear-se na carga computacional atual, o LLEP supera as limitações das abordagens existentes, levando a ganhos significativos de eficiência no treinamento distribuído. Para trabalhos futuros, planejamos investigar a integração do LLEP com algoritmos de routing mais avançados e explorar sua aplicação em cenários de inferência em tempo real, onde o balanceamento de carga é igualmente crítico. Referências [1] Shazeer, N. et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. [2] Lepikhin, D. et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. [3] Fedus, W. et al. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. [4] ... (Trabalho sobre balanceamento centralizado) [5] Lewis, M. et al. (2021). BASE Layers: Simple and Effective Language Modeling.

Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts

January 23, 2026

Autores: Xuan-Phi Nguyen, Shrey Pandit, Austin Xu, Caiming Xiong, Shafiq Joty

cs.AI

Resumo

Os modelos Mixture-of-Experts (MoE) são tipicamente pré-treinados com restrições explícitas de balanceamento de carga para garantir um roteamento de especialistas estatisticamente equilibrado. Apesar disso, observamos que mesmo modelos MoE bem treinados exibem roteamento significativamente desequilibrado. Este comportamento é indiscutivelmente natural - e até mesmo desejável - pois o roteamento desequilibrado permite que os modelos concentrem conhecimento específico de domínio dentro de um subconjunto de especialistas. O paralelismo de especialistas (EP) é projetado para escalar modelos MoE distribuindo especialistas por múltiplos dispositivos, mas com uma suposição pouco discutida de roteamento equilibrado. Sob desequilíbrio extremo, o EP pode canalizar um número desproporcional de tokens para um pequeno número de especialistas, levando a falhas por limitação de computação e memória em dispositivos sobrecarregados durante o pós-treinamento ou inferência, onde o balanceamento explícito de carga geralmente não é aplicável. Propomos o Paralelismo de Especialistas de Menor Carga (LLEP), um algoritmo de EP inovador que rerroteia dinamicamente tokens excedentes e os parâmetros de especialistas associados de dispositivos sobrecarregados para subutilizados. Isso garante que todos os dispositivos completem suas cargas de trabalho dentro da latência coletiva mínima, respeitando as restrições de memória. Em diferentes escalas de modelo, o LLEP alcança até 5x de aceleração e redução de 4x no uso de memória de pico em comparação com o EP padrão. Isso permite pós-treinamento e inferência mais rápidos e com maior throughput, sendo ~1,9x mais rápido para o gpt-oss-120b. Suportamos nosso método com extensa análise teórica e avaliações empíricas abrangentes, incluindo estudos de ablação. Esses resultados elucidam compensações fundamentais e permitem uma estrutura fundamentada para ajuste de hiperparâmetros específicos de hardware para alcançar desempenho ótimo.

English

Mixture-of-Experts (MoE) models are typically pre-trained with explicit load-balancing constraints to ensure statistically balanced expert routing. Despite this, we observe that even well-trained MoE models exhibit significantly imbalanced routing. This behavior is arguably natural-and even desirable - as imbalanced routing allows models to concentrate domain-specific knowledge within a subset of experts. Expert parallelism (EP) is designed to scale MoE models by distributing experts across multiple devices, but with a less-discussed assumption of balanced routing. Under extreme imbalance, EP can funnel a disproportionate number of tokens to a small number of experts, leading to compute- and memory-bound failures on overloaded devices during post-training or inference, where explicit load balancing is often inapplicable. We propose Least-Loaded Expert Parallelism (LLEP), a novel EP algorithm that dynamically reroutes excess tokens and associated expert parameters from overloaded devices to underutilized ones. This ensures that all devices complete their workloads within the minimum collective latency while respecting memory constraints. Across different model scales, LLEP achieves up to 5x speedup and 4x reduction in peak memory usage compared to standard EP. This enables faster and higher-throughput post-training and inference, with ~1.9x faster for gpt-oss-120b. We support our method with extensive theoretical analysis and comprehensive empirical evaluations, including ablation studies. These results illuminate key trade-offs and enable a principled framework for hardware-specific hyper-parameter tuning to achieve optimal performance.