Многоголовая модель смеси экспертов
Multi-Head Mixture-of-Experts
April 23, 2024
Авторы: Xun Wu, Shaohan Huang, Wenhui Wang, Furu Wei
cs.AI
Аннотация
Разреженные смеси экспертов (SMoE) увеличивают объем модели без значительного увеличения затрат на обучение и вывод, однако имеют две проблемы: (1) Низкая активация экспертов, когда для оптимизации активируется лишь небольшой поднабор экспертов. (2) Отсутствие тонкой аналитической способности для множества семантических концепций внутри отдельных токенов. Мы предлагаем Многоголовую Смесь Экспертов (MH-MoE), которая использует механизм с множеством головок для разделения каждого токена на несколько подтокенов. Эти подтокены затем назначаются и обрабатываются разнообразным набором экспертов параллельно, а затем без проблем интегрируются обратно в исходную форму токена. Механизм с множеством головок позволяет модели совместно обращаться к информации из различных пространств представлений в разных экспертах, что существенно улучшает активацию экспертов, углубляет понимание контекста и снижает переобучение. Более того, наш MH-MoE легко реализуется и разделяется от других методов оптимизации SMoE, что облегчает его интеграцию с другими моделями SMoE для улучшения производительности. Обширные экспериментальные результаты по трем задачам: моделирование языка на английском, многоязычное моделирование языка и задачи маскированной мультимодальности, демонстрируют эффективность MH-MoE.
English
Sparse Mixtures of Experts (SMoE) scales model capacity without significant
increases in training and inference costs, but exhibits the following two
issues: (1) Low expert activation, where only a small subset of experts are
activated for optimization. (2) Lacking fine-grained analytical capabilities
for multiple semantic concepts within individual tokens. We propose Multi-Head
Mixture-of-Experts (MH-MoE), which employs a multi-head mechanism to split each
token into multiple sub-tokens. These sub-tokens are then assigned to and
processed by a diverse set of experts in parallel, and seamlessly reintegrated
into the original token form. The multi-head mechanism enables the model to
collectively attend to information from various representation spaces within
different experts, while significantly enhances expert activation, thus deepens
context understanding and alleviate overfitting. Moreover, our MH-MoE is
straightforward to implement and decouples from other SMoE optimization
methods, making it easy to integrate with other SMoE models for enhanced
performance. Extensive experimental results across three tasks: English-focused
language modeling, Multi-lingual language modeling and Masked multi-modality
modeling tasks, demonstrate the effectiveness of MH-MoE.Summary
AI-Generated Summary