CompeteSMoE -- Addestramento di Mistura di Esperti con Garanzia Statistica tramite Competizione
CompeteSMoE -- Statistically Guaranteed Mixture of Experts Training via Competition
May 19, 2025
Autori: Nam V. Nguyen, Huy Nguyen, Quang Pham, Van Nguyen, Savitha Ramasamy, Nhat Ho
cs.AI
Abstract
La miscela sparsa di esperti (Sparse Mixture of Experts, SMoE) offre una soluzione interessante per aumentare la complessità del modello senza ricorrere all'aumento della profondità o della larghezza della rete. Tuttavia, sosteniamo che l'addestramento efficace di SMoE rimane una sfida a causa del processo di routing subottimale, in cui gli esperti che eseguono i calcoli non contribuiscono direttamente al processo di routing. In questo lavoro, proponiamo la competizione, un nuovo meccanismo per indirizzare i token agli esperti con la risposta neurale più elevata. Teoricamente, dimostriamo che il meccanismo di competizione offre una migliore efficienza campionaria rispetto al tradizionale routing softmax. Inoltre, sviluppiamo CompeteSMoE, un algoritmo semplice ma efficace per addestrare modelli linguistici di grandi dimensioni, utilizzando un router per apprendere la politica di competizione, ottenendo così prestazioni elevate con un basso sovraccarico di addestramento. Le nostre valutazioni empiriche estese su entrambi i compiti di ottimizzazione delle istruzioni visive e di pre-addestramento linguistico dimostrano l'efficacia, la robustezza e la scalabilità di CompeteSMoE rispetto alle migliori strategie SMoE attuali. Abbiamo reso disponibile l'implementazione all'indirizzo: https://github.com/Fsoft-AIC/CompeteSMoE. Questo lavoro è una versione migliorata dello studio precedente disponibile su arXiv:2402.02526.
English
Sparse mixture of experts (SMoE) offers an appealing solution to scale up the
model complexity beyond the mean of increasing the network's depth or width.
However, we argue that effective SMoE training remains challenging because of
the suboptimal routing process where experts that perform computation do not
directly contribute to the routing process. In this work, we propose
competition, a novel mechanism to route tokens to experts with the highest
neural response. Theoretically, we show that the competition mechanism enjoys a
better sample efficiency than the traditional softmax routing. Furthermore, we
develop CompeteSMoE, a simple yet effective algorithm to train large language
models by deploying a router to learn the competition policy, thus enjoying
strong performances at a low training overhead. Our extensive empirical
evaluations on both the visual instruction tuning and language pre-training
tasks demonstrate the efficacy, robustness, and scalability of CompeteSMoE
compared to state-of-the-art SMoE strategies. We have made the implementation
available at: https://github.com/Fsoft-AIC/CompeteSMoE. This work is an
improved version of the previous study at arXiv:2402.02526