CompeteSMoE — Статистически Гарантированное Обучение Смеси Экспертов через Конкуренцию
CompeteSMoE -- Statistically Guaranteed Mixture of Experts Training via Competition
May 19, 2025
Авторы: Nam V. Nguyen, Huy Nguyen, Quang Pham, Van Nguyen, Savitha Ramasamy, Nhat Ho
cs.AI
Аннотация
Разреженная смесь экспертов (SMoE) предлагает привлекательное решение для масштабирования сложности модели, выходящее за рамки увеличения глубины или ширины сети. Однако мы утверждаем, что эффективное обучение SMoE остается сложной задачей из-за субоптимального процесса маршрутизации, при котором эксперты, выполняющие вычисления, не участвуют напрямую в процессе маршрутизации. В данной работе мы предлагаем механизм конкуренции — новый подход к маршрутизации токенов к экспертам с наивысшим нейронным откликом. Теоретически мы показываем, что механизм конкуренции обладает лучшей эффективностью использования данных по сравнению с традиционной маршрутизацией через softmax. Кроме того, мы разрабатываем CompeteSMoE — простой, но эффективный алгоритм для обучения крупных языковых моделей, который использует маршрутизатор для изучения политики конкуренции, что позволяет достичь высокой производительности при низких затратах на обучение. Наши обширные эмпирические оценки на задачах визуальной настройки инструкций и предварительного обучения языку демонстрируют эффективность, устойчивость и масштабируемость CompeteSMoE по сравнению с современными стратегиями SMoE. Мы сделали реализацию доступной по адресу: https://github.com/Fsoft-AIC/CompeteSMoE. Данная работа является улучшенной версией предыдущего исследования, представленного в arXiv:2402.02526.
English
Sparse mixture of experts (SMoE) offers an appealing solution to scale up the
model complexity beyond the mean of increasing the network's depth or width.
However, we argue that effective SMoE training remains challenging because of
the suboptimal routing process where experts that perform computation do not
directly contribute to the routing process. In this work, we propose
competition, a novel mechanism to route tokens to experts with the highest
neural response. Theoretically, we show that the competition mechanism enjoys a
better sample efficiency than the traditional softmax routing. Furthermore, we
develop CompeteSMoE, a simple yet effective algorithm to train large language
models by deploying a router to learn the competition policy, thus enjoying
strong performances at a low training overhead. Our extensive empirical
evaluations on both the visual instruction tuning and language pre-training
tasks demonstrate the efficacy, robustness, and scalability of CompeteSMoE
compared to state-of-the-art SMoE strategies. We have made the implementation
available at: https://github.com/Fsoft-AIC/CompeteSMoE. This work is an
improved version of the previous study at arXiv:2402.02526Summary
AI-Generated Summary