ChatPaper.aiChatPaper

CompeteSMoE – Statistisch garantierte Mischung von Experten-Training durch Wettbewerb

CompeteSMoE -- Statistically Guaranteed Mixture of Experts Training via Competition

May 19, 2025
Autoren: Nam V. Nguyen, Huy Nguyen, Quang Pham, Van Nguyen, Savitha Ramasamy, Nhat Ho
cs.AI

Zusammenfassung

Sparse Mixture of Experts (SMoE) bietet eine vielversprechende Lösung, um die Modellkomplexität über die bloße Erhöhung der Tiefe oder Breite des Netzwerks hinaus zu skalieren. Wir argumentieren jedoch, dass ein effektives Training von SMoE aufgrund des suboptimalen Routing-Prozesses, bei dem die Experten, die Berechnungen durchführen, nicht direkt zum Routing-Prozess beitragen, nach wie vor eine Herausforderung darstellt. In dieser Arbeit schlagen wir einen Wettbewerbsmechanismus vor, ein neuartiges Verfahren, um Tokens an die Experten mit der höchsten neuronalen Antwort zu routen. Theoretisch zeigen wir, dass der Wettbewerbsmechanismus eine bessere Stichprobeneffizienz als das traditionelle Softmax-Routing aufweist. Darüber hinaus entwickeln wir CompeteSMoE, einen einfachen, aber effektiven Algorithmus, um große Sprachmodelle zu trainieren, indem ein Router eingesetzt wird, um die Wettbewerbspolitik zu erlernen, wodurch eine hohe Leistung bei geringem Trainingsaufwand erreicht wird. Unsere umfangreichen empirischen Auswertungen sowohl bei der visuellen Instruktionsoptimierung als auch bei der Sprachvorverarbeitung zeigen die Wirksamkeit, Robustheit und Skalierbarkeit von CompeteSMoE im Vergleich zu modernsten SMoE-Strategien. Wir haben die Implementierung unter folgender Adresse verfügbar gemacht: https://github.com/Fsoft-AIC/CompeteSMoE. Diese Arbeit ist eine verbesserte Version der vorherigen Studie unter arXiv:2402.02526.
English
Sparse mixture of experts (SMoE) offers an appealing solution to scale up the model complexity beyond the mean of increasing the network's depth or width. However, we argue that effective SMoE training remains challenging because of the suboptimal routing process where experts that perform computation do not directly contribute to the routing process. In this work, we propose competition, a novel mechanism to route tokens to experts with the highest neural response. Theoretically, we show that the competition mechanism enjoys a better sample efficiency than the traditional softmax routing. Furthermore, we develop CompeteSMoE, a simple yet effective algorithm to train large language models by deploying a router to learn the competition policy, thus enjoying strong performances at a low training overhead. Our extensive empirical evaluations on both the visual instruction tuning and language pre-training tasks demonstrate the efficacy, robustness, and scalability of CompeteSMoE compared to state-of-the-art SMoE strategies. We have made the implementation available at: https://github.com/Fsoft-AIC/CompeteSMoE. This work is an improved version of the previous study at arXiv:2402.02526

Summary

AI-Generated Summary

PDF31May 21, 2025