Minst-belaste Expert Parallelisme: Lastverdeling in een Ongebalanceerd Mengsel van Experts

Samenvatting

Mixture-of-Experts (MoE)-modellen worden doorgaans voorgetraind met expliciete belastingsbalanceringsbeperkingen om statistisch gebalanceerde expertroutering te garanderen. Desondanks merken we op dat zelfs goed getrainde MoE-modellen een significant onevenwichtige routering vertonen. Dit gedrag is wellicht natuurlijk – en zelfs wenselijk – omdat onevenwichtige routering modellen in staat stelt domeinspecifieke kennis te concentreren binnen een subset van experts. Expertparallelisme (EP) is ontworpen om MoE-modellen te schalen door experts over meerdere apparaten te verdelen, maar gaat uit van de minder besproken veronderstelling van gebalanceerde routering. Onder extreme onevenwichtigheid kan EP een onevenredig groot aantal tokens naar een klein aantal experts leiden, wat resulteert in reken- en geheugen gebonden fouten op overbelaste apparaten tijdens natreining of inferentie, waar expliciete belastingsbalancering vaak niet toepasbaar is. Wij stellen Least-Loaded Expert Parallelism (LLEP) voor, een nieuw EP-algoritme dat overtollige tokens en bijbehorende expertparameters dynamisch omleidt van overbelaste naar onderbenutte apparaten. Dit zorgt ervoor dat alle apparaten hun werklast voltooien binnen de minimale collectieve latentietijd, met inachtneming van geheugenbeperkingen. Over verschillende modelschalen heen behaalt LLEP een versnelling tot 5x en een vermindering van het piekgeheugengebruik met 4x in vergelijking met standaard EP. Dit maakt snellere natreining en inferentie met een hogere doorvoer mogelijk, met ~1,9x snellere verwerking voor gpt-oss-120b. Wij ondersteunen onze methode met uitgebreide theoretische analyse en uitgebreide empirische evaluaties, inclusief ablatiestudies. Deze resultaten belichten belangrijke afwegingen en maken een principieel kader mogelijk voor hardware-specifieke hyperparameterafstemming om optimale prestaties te bereiken.

English

Mixture-of-Experts (MoE) models are typically pre-trained with explicit load-balancing constraints to ensure statistically balanced expert routing. Despite this, we observe that even well-trained MoE models exhibit significantly imbalanced routing. This behavior is arguably natural-and even desirable - as imbalanced routing allows models to concentrate domain-specific knowledge within a subset of experts. Expert parallelism (EP) is designed to scale MoE models by distributing experts across multiple devices, but with a less-discussed assumption of balanced routing. Under extreme imbalance, EP can funnel a disproportionate number of tokens to a small number of experts, leading to compute- and memory-bound failures on overloaded devices during post-training or inference, where explicit load balancing is often inapplicable. We propose Least-Loaded Expert Parallelism (LLEP), a novel EP algorithm that dynamically reroutes excess tokens and associated expert parameters from overloaded devices to underutilized ones. This ensures that all devices complete their workloads within the minimum collective latency while respecting memory constraints. Across different model scales, LLEP achieves up to 5x speedup and 4x reduction in peak memory usage compared to standard EP. This enables faster and higher-throughput post-training and inference, with ~1.9x faster for gpt-oss-120b. We support our method with extensive theoretical analysis and comprehensive empirical evaluations, including ablation studies. These results illuminate key trade-offs and enable a principled framework for hardware-specific hyper-parameter tuning to achieve optimal performance.

Minst-belaste Expert Parallelisme: Lastverdeling in een Ongebalanceerd Mengsel van Experts

Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts

Samenvatting

Support