マルチヘッド・ミクスチャー・オブ・エキスパーツ
Multi-Head Mixture-of-Experts
April 23, 2024
著者: Xun Wu, Shaohan Huang, Wenhui Wang, Furu Wei
cs.AI
要旨
スパース・ミクスチャー・オブ・エキスパーツ(SMoE)は、トレーニングや推論コストを大幅に増加させることなくモデルの容量を拡張しますが、以下の2つの課題があります:(1)エキスパートの活性化が低く、最適化のためにごく少数のエキスパートのみが活性化される。(2)個々のトークン内の複数の意味概念に対する細かい分析能力が欠如している。本論文では、マルチヘッド・ミクスチャー・オブ・エキスパーツ(MH-MoE)を提案します。これは、マルチヘッド機構を用いて各トークンを複数のサブトークンに分割し、これらのサブトークンを多様なエキスパートに割り当てて並列処理し、元のトークン形式にシームレスに再統合します。マルチヘッド機構により、モデルは異なるエキスパート内の様々な表現空間からの情報を集約的に注意を払うことができ、エキスパートの活性化を大幅に向上させ、コンテキスト理解を深め、過学習を緩和します。さらに、MH-MoEは実装が容易で、他のSMoE最適化手法から切り離されているため、他のSMoEモデルと簡単に統合して性能を向上させることができます。英語中心の言語モデリング、多言語言語モデリング、マスクされたマルチモダリティモデリングの3つのタスクにわたる広範な実験結果は、MH-MoEの有効性を示しています。
English
Sparse Mixtures of Experts (SMoE) scales model capacity without significant
increases in training and inference costs, but exhibits the following two
issues: (1) Low expert activation, where only a small subset of experts are
activated for optimization. (2) Lacking fine-grained analytical capabilities
for multiple semantic concepts within individual tokens. We propose Multi-Head
Mixture-of-Experts (MH-MoE), which employs a multi-head mechanism to split each
token into multiple sub-tokens. These sub-tokens are then assigned to and
processed by a diverse set of experts in parallel, and seamlessly reintegrated
into the original token form. The multi-head mechanism enables the model to
collectively attend to information from various representation spaces within
different experts, while significantly enhances expert activation, thus deepens
context understanding and alleviate overfitting. Moreover, our MH-MoE is
straightforward to implement and decouples from other SMoE optimization
methods, making it easy to integrate with other SMoE models for enhanced
performance. Extensive experimental results across three tasks: English-focused
language modeling, Multi-lingual language modeling and Masked multi-modality
modeling tasks, demonstrate the effectiveness of MH-MoE.Summary
AI-Generated Summary