Inferenza Consapevole della Capacità: Mitigazione dell'Effetto Straggler nei Modelli a Miscela di Esperti

Abstract

La Mixture of Experts (MoE) è un'architettura efficace per scalare modelli linguistici di grandi dimensioni sfruttando l'attivazione sparsa degli esperti, ottimizzando il compromesso tra prestazioni ed efficienza. Tuttavia, in condizioni di parallelismo degli esperti, la MoE soffre di inefficienze nell'inferenza a causa di un'assegnazione sbilanciata dei token agli esperti, dove alcuni esperti sono sovraccaricati mentre altri rimangono sottoutilizzati. Questo squilibrio porta a una scarsa utilizzazione delle risorse e a un aumento della latenza, poiché l'esperto più carico determina il ritardo complessivo, un fenomeno che definiamo come \textit{Effetto Straggler}. Per mitigare questo problema, proponiamo l'Inferenza Consapevole della Capacità, che include due tecniche chiave: (1) \textit{Token Drop Consapevole della Capacità}, che scarta i token sovraccaricati per regolare la latenza massima della MoE, e (2) \textit{Token Reroute Consapevole della Capacità}, che riassegna i token in eccesso agli esperti sottoutilizzati, bilanciando la distribuzione dei token. Queste tecniche ottimizzano collettivamente sia l'utilizzo degli esperti ad alto carico che quelli a basso carico, portando a una pipeline di inferenza MoE più efficiente. Esperimenti estensivi dimostrano l'efficacia dei nostri metodi, mostrando miglioramenti significativi nell'efficienza dell'inferenza, ad esempio un aumento medio delle prestazioni dello 0,2\% e un'accelerazione dell'inferenza di 1,94 volte su Mixtral-8x7B-Instruct.

English

The Mixture of Experts (MoE) is an effective architecture for scaling large language models by leveraging sparse expert activation, optimizing the trade-off between performance and efficiency. However, under expert parallelism, MoE suffers from inference inefficiencies due to imbalanced token-to-expert assignment, where some experts are overloaded while others remain underutilized. This imbalance leads to poor resource utilization and increased latency, as the most burdened expert dictates the overall delay, a phenomenon we define as the \textit{Straggler Effect}. To mitigate this, we propose Capacity-Aware Inference, including two key techniques: (1) \textit{Capacity-Aware Token Drop}, which discards overloaded tokens to regulate the maximum latency of MoE, and (2) \textit{Capacity-Aware Token Reroute}, which reallocates overflowed tokens to underutilized experts, balancing the token distribution. These techniques collectively optimize both high-load and low-load expert utilization, leading to a more efficient MoE inference pipeline. Extensive experiments demonstrate the effectiveness of our methods, showing significant improvements in inference efficiency, e.g., 0.2\% average performance increase and a 1.94times inference speedup on Mixtral-8times7B-Instruct.

Inferenza Consapevole della Capacità: Mitigazione dell'Effetto Straggler nei Modelli a Miscela di Esperti

Capacity-Aware Inference: Mitigating the Straggler Effect in Mixture of Experts

Abstract

Support