FLAME-MoE: エキスパート混合型言語モデルのための透明性のあるエンドツーエンド研究プラットフォーム
FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models
May 26, 2025
著者: Hao Kang, Zichun Yu, Chenyan Xiong
cs.AI
要旨
最近の大規模言語モデル、例えばGemini-1.5、DeepSeek-V3、Llama-4などは、Mixture-of-Experts(MoE)アーキテクチャを採用する傾向が強まっており、トークンごとにモデルの一部のみを活性化することで効率と性能のトレードオフを実現している。しかし、学術研究者は依然として、スケーリング、ルーティング、およびエキスパートの挙動を調査するための完全にオープンなエンドツーエンドのMoEプラットフォームを欠いている。我々はFLAME-MoEをリリースした。これは、38Mから1.7Bのアクティブパラメータを持つ7つのデコーダのみのモデルで構成される完全にオープンソースの研究スイートであり、そのアーキテクチャ(64のエキスパートとトップ8ゲーティング、2つの共有エキスパート)は現代の生産用LLMを忠実に反映している。すべてのトレーニングデータパイプライン、スクリプト、ログ、およびチェックポイントは公開されており、再現可能な実験を可能にする。6つの評価タスクにおいて、FLAME-MoEは同一のFLOPsでトレーニングされた密なベースラインに対して平均精度を最大3.4ポイント向上させた。完全なトレーニングトレースの透明性を活用し、我々は以下の初期分析を提示する:(i) エキスパートは異なるトークンサブセットに特化する傾向が強まる、(ii) 共活性化行列は疎なままであり、多様なエキスパートの使用を反映する、(iii) ルーティングの挙動はトレーニングの早い段階で安定する。すべてのコード、トレーニングログ、およびモデルチェックポイントはhttps://github.com/cmu-flame/FLAME-MoEで利用可能である。
English
Recent large language models such as Gemini-1.5, DeepSeek-V3, and Llama-4
increasingly adopt Mixture-of-Experts (MoE) architectures, which offer strong
efficiency-performance trade-offs by activating only a fraction of the model
per token. Yet academic researchers still lack a fully open, end-to-end MoE
platform for investigating scaling, routing, and expert behavior. We release
FLAME-MoE, a completely open-source research suite composed of seven
decoder-only models, ranging from 38M to 1.7B active parameters, whose
architecture--64 experts with top-8 gating and 2 shared experts--closely
reflects modern production LLMs. All training data pipelines, scripts, logs,
and checkpoints are publicly available to enable reproducible experimentation.
Across six evaluation tasks, FLAME-MoE improves average accuracy by up to 3.4
points over dense baselines trained with identical FLOPs. Leveraging full
training trace transparency, we present initial analyses showing that (i)
experts increasingly specialize on distinct token subsets, (ii) co-activation
matrices remain sparse, reflecting diverse expert usage, and (iii) routing
behavior stabilizes early in training. All code, training logs, and model
checkpoints are available at https://github.com/cmu-flame/FLAME-MoE.Summary
AI-Generated Summary