Parallelismo degli Esperti a Carico Minimo: Bilanciamento del Carico in una Miscela di Esperti Sbilanciata

Abstract

I modelli Mixture-of-Experts (MoE) sono tipicamente pre-addestrati con vincoli espliciti di bilanciamento del carico per garantire un routing degli esperti statisticamente bilanciato. Nonostante ciò, osserviamo che anche modelli MoE ben addestrati presentano un routing significativamente squilibrato. Questo comportamento è probabilmente naturale - e persino desiderabile - poiché un routing squilibrato consente ai modelli di concentrare la conoscenza dominio-specifica all'interno di un sottoinsieme di esperti. L'Expert Parallelism (EP) è progettato per scalare i modelli MoE distribuendo gli esperti su più dispositivi, ma si basa su un'associazione meno discussa di routing bilanciato. In condizioni di squilibrio estremo, l'EP può convogliare un numero sproporzionato di token verso un piccolo numero di esperti, portando a guasti legati al calcolo e alla memoria su dispositivi sovraccarichi durante il post-training o l'inferenza, dove il bilanciamento esplicito del carico è spesso inapplicabile. Proponiamo il Least-Loaded Expert Parallelism (LLEP), un nuovo algoritmo EP che reindirizza dinamicamente i token in eccesso e i relativi parametri degli esperti dai dispositivi sovraccarichi a quelli sottoutilizzati. Ciò garantisce che tutti i dispositivi completino il proprio carico di lavoro entro la latenza collettiva minima, rispettando i vincoli di memoria. Su diverse scale di modelli, LLEP raggiunge un speedup fino a 5x e una riduzione di 4x nell'utilizzo di memoria di picco rispetto all'EP standard. Ciò consente un post-training e un'inferenza più veloci e con maggiore produttività, con un miglioramento di ~1.9x per gpt-oss-120b. Supportiamo il nostro metodo con un'ampia analisi teorica e valutazioni empiriche complete, inclusi studi di ablazione. Questi risultati illuminano i compromessi chiave e abilitano un framework principiato per la regolazione degli iper-parametri specifici per l'hardware al fine di raggiungere prestazioni ottimali.

English

Mixture-of-Experts (MoE) models are typically pre-trained with explicit load-balancing constraints to ensure statistically balanced expert routing. Despite this, we observe that even well-trained MoE models exhibit significantly imbalanced routing. This behavior is arguably natural-and even desirable - as imbalanced routing allows models to concentrate domain-specific knowledge within a subset of experts. Expert parallelism (EP) is designed to scale MoE models by distributing experts across multiple devices, but with a less-discussed assumption of balanced routing. Under extreme imbalance, EP can funnel a disproportionate number of tokens to a small number of experts, leading to compute- and memory-bound failures on overloaded devices during post-training or inference, where explicit load balancing is often inapplicable. We propose Least-Loaded Expert Parallelism (LLEP), a novel EP algorithm that dynamically reroutes excess tokens and associated expert parameters from overloaded devices to underutilized ones. This ensures that all devices complete their workloads within the minimum collective latency while respecting memory constraints. Across different model scales, LLEP achieves up to 5x speedup and 4x reduction in peak memory usage compared to standard EP. This enables faster and higher-throughput post-training and inference, with ~1.9x faster for gpt-oss-120b. We support our method with extensive theoretical analysis and comprehensive empirical evaluations, including ablation studies. These results illuminate key trade-offs and enable a principled framework for hardware-specific hyper-parameter tuning to achieve optimal performance.