ChatPaper.aiChatPaper

CompeteSMoE -- 경쟁을 통한 통계적 보장이 있는 전문가 혼합 모델 학습

CompeteSMoE -- Statistically Guaranteed Mixture of Experts Training via Competition

May 19, 2025
저자: Nam V. Nguyen, Huy Nguyen, Quang Pham, Van Nguyen, Savitha Ramasamy, Nhat Ho
cs.AI

초록

희소 전문가 혼합 모델(Sparse Mixture of Experts, SMoE)은 네트워크의 깊이나 너비를 증가시키는 방법을 넘어 모델 복잡성을 확장하기 위한 매력적인 해결책을 제공합니다. 그러나 우리는 효과적인 SMoE 학습이 여전히 어려운 과제로 남아 있다고 주장합니다. 이는 계산을 수행하는 전문가들이 라우팅 프로세스에 직접적으로 기여하지 않는 최적화되지 않은 라우팅 과정 때문입니다. 본 연구에서는 가장 높은 신경 반응을 보이는 전문가에게 토큰을 라우팅하기 위한 새로운 메커니즘인 경쟁(competition)을 제안합니다. 이론적으로, 우리는 경쟁 메커니즘이 기존의 소프트맥스 라우팅보다 더 나은 샘플 효율성을 가짐을 보여줍니다. 또한, 경쟁 정책을 학습하기 위한 라우터를 배치하여 낮은 학습 오버헤드로 강력한 성능을 달성하는 간단하면서도 효과적인 알고리즘인 CompeteSMoE를 개발했습니다. 시각적 명령 튜닝 및 언어 사전 학습 작업에 대한 광범위한 실험적 평가를 통해 CompeteSMoE가 최신 SMoE 전략과 비교하여 효율성, 견고성 및 확장성을 입증했습니다. 구현 코드는 https://github.com/Fsoft-AIC/CompeteSMoE에서 확인할 수 있습니다. 본 연구는 arXiv:2402.02526에 게재된 이전 연구의 개선된 버전입니다.
English
Sparse mixture of experts (SMoE) offers an appealing solution to scale up the model complexity beyond the mean of increasing the network's depth or width. However, we argue that effective SMoE training remains challenging because of the suboptimal routing process where experts that perform computation do not directly contribute to the routing process. In this work, we propose competition, a novel mechanism to route tokens to experts with the highest neural response. Theoretically, we show that the competition mechanism enjoys a better sample efficiency than the traditional softmax routing. Furthermore, we develop CompeteSMoE, a simple yet effective algorithm to train large language models by deploying a router to learn the competition policy, thus enjoying strong performances at a low training overhead. Our extensive empirical evaluations on both the visual instruction tuning and language pre-training tasks demonstrate the efficacy, robustness, and scalability of CompeteSMoE compared to state-of-the-art SMoE strategies. We have made the implementation available at: https://github.com/Fsoft-AIC/CompeteSMoE. This work is an improved version of the previous study at arXiv:2402.02526

Summary

AI-Generated Summary

PDF31May 21, 2025