Strategia di Bilanciamento del Carico Senza Perdita di Loss Ausiliaria per la Miscela di Esperti

Abstract

Per i modelli Mixture-of-Experts (MoE), un carico di esperti sbilanciato porterà al collasso del routing o a un aumento del carico computazionale. I metodi esistenti comunemente utilizzano una perdita ausiliaria per incoraggiare il bilanciamento del carico, ma una grande perdita ausiliaria introdurrà gradienti di interferenza non trascurabili durante l'addestramento e comprometterà quindi le prestazioni del modello. Al fine di controllare il bilanciamento del carico senza produrre gradienti indesiderati durante l'addestramento, proponiamo il Bilanciamento Senza Perdita, caratterizzato da una strategia di bilanciamento del carico senza perdita ausiliaria. Per essere specifici, prima della decisione di routing top-K, il Bilanciamento Senza Perdita applicherà innanzitutto un bias specifico per esperto ai punteggi di routing di ciascun esperto. Aggiornando dinamicamente il bias di ciascun esperto in base al suo carico recente, il Bilanciamento Senza Perdita può mantenere costantemente una distribuzione bilanciata del carico degli esperti. Inoltre, poiché il Bilanciamento Senza Perdita non produce alcun gradiente di interferenza, aumenta anche il limite superiore delle prestazioni del modello ottenute dall'addestramento MoE. Confermiamo le prestazioni del Bilanciamento Senza Perdita su modelli MoE con fino a 3 miliardi di parametri addestrati su fino a 200 miliardi di token. I risultati sperimentali mostrano che il Bilanciamento Senza Perdita ottiene sia migliori prestazioni sia un miglior bilanciamento del carico rispetto alle tradizionali strategie di bilanciamento del carico controllate da perdite ausiliarie.

English

For Mixture-of-Experts (MoE) models, an unbalanced expert load will lead to routing collapse or increased computational overhead. Existing methods commonly employ an auxiliary loss to encourage load balance, but a large auxiliary loss will introduce non-negligible interference gradients into training and thus impair the model performance. In order to control load balance while not producing undesired gradients during training, we propose Loss-Free Balancing, featured by an auxiliary-loss-free load balancing strategy. To be specific, before the top-K routing decision, Loss-Free Balancing will first apply an expert-wise bias to the routing scores of each expert. By dynamically updating the bias of each expert according to its recent load, Loss-Free Balancing can consistently maintain a balanced distribution of expert load. In addition, since Loss-Free Balancing does not produce any interference gradients, it also elevates the upper bound of model performance gained from MoE training. We validate the performance of Loss-Free Balancing on MoE models with up to 3B parameters trained on up to 200B tokens. Experimental results show that Loss-Free Balancing achieves both better performance and better load balance compared with traditional auxiliary-loss-controlled load balancing strategies.

Strategia di Bilanciamento del Carico Senza Perdita di Loss Ausiliaria per la Miscela di Esperti

Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts

Abstract

Support