ChatPaper.aiChatPaper

OpenMoE: オープンなMixture-of-Experts言語モデルへの初期の取り組み

OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models

January 29, 2024
著者: Fuzhao Xue, Zian Zheng, Yao Fu, Jinjie Ni, Zangwei Zheng, Wangchunshu Zhou, Yang You
cs.AI

要旨

オープンソースコミュニティがMixture-of-Experts(MoE)ベースの大規模言語モデル(LLM)をより深く理解できるよう支援するため、我々はOpenMoEをトレーニングし公開しました。OpenMoEは、650Mから34Bパラメータまでの範囲で、1T以上のトークンでトレーニングされた、完全にオープンソースで再現可能なデコーダのみのMoE LLMシリーズです。我々の調査により、MoEベースのLLMが密なLLMよりもコストパフォーマンスの面で有利であることが確認され、将来のLLM開発における有効性が示されました。 本研究のもう一つの重要な貢献は、OpenMoEモデル内のルーティングメカニズムの詳細な分析です。これにより、以下の3つの重要な発見が得られました:コンテキストに依存しない専門化、早期ルーティング学習、および終盤でのドロップです。我々は、MoEモデルにおけるルーティング決定が主にトークンIDに基づいており、コンテキストとの関連性が最小限であることを発見しました。トークンからエキスパートへの割り当ては、事前学習の初期段階で決定され、その後ほとんど変化しません。この不完全なルーティングは、特に多段階の会話のような逐次タスクにおいて、シーケンスの後半に現れるトークンがドロップされやすくなるため、性能の低下を引き起こす可能性があります。 最後に、上記の観察と分析に基づいて設計を再考しました。将来のMoE LLM開発を促進するため、我々が発見した問題を緩和し、既存のMoE LLM設計をさらに改善するための潜在的な戦略を提案します。
English
To help the open-source community have a better understanding of Mixture-of-Experts (MoE) based large language models (LLMs), we train and release OpenMoE, a series of fully open-sourced and reproducible decoder-only MoE LLMs, ranging from 650M to 34B parameters and trained on up to over 1T tokens. Our investigation confirms that MoE-based LLMs can offer a more favorable cost-effectiveness trade-off than dense LLMs, highlighting the potential effectiveness for future LLM development. One more important contribution of this study is an in-depth analysis of the routing mechanisms within our OpenMoE models, leading to three significant findings: Context-Independent Specialization, Early Routing Learning, and Drop-towards-the-End. We discovered that routing decisions in MoE models are predominantly based on token IDs, with minimal context relevance. The token-to-expert assignments are determined early in the pre-training phase and remain largely unchanged. This imperfect routing can result in performance degradation, particularly in sequential tasks like multi-turn conversations, where tokens appearing later in a sequence are more likely to be dropped. Finally, we rethink our design based on the above-mentioned observations and analysis. To facilitate future MoE LLM development, we propose potential strategies for mitigating the issues we found and further improving off-the-shelf MoE LLM designs.
PDF294December 15, 2024