ChatPaper.aiChatPaper

FLAME-MoE: エキスパート混合型言語モデルのための透明性のあるエンドツーエンド研究プラットフォーム

FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models

May 26, 2025
著者: Hao Kang, Zichun Yu, Chenyan Xiong
cs.AI

要旨

最近の大規模言語モデル、例えばGemini-1.5、DeepSeek-V3、Llama-4などは、Mixture-of-Experts(MoE)アーキテクチャを採用する傾向が強まっており、トークンごとにモデルの一部のみを活性化することで効率と性能のトレードオフを実現している。しかし、学術研究者は依然として、スケーリング、ルーティング、およびエキスパートの挙動を調査するための完全にオープンなエンドツーエンドのMoEプラットフォームを欠いている。我々はFLAME-MoEをリリースした。これは、38Mから1.7Bのアクティブパラメータを持つ7つのデコーダのみのモデルで構成される完全にオープンソースの研究スイートであり、そのアーキテクチャ(64のエキスパートとトップ8ゲーティング、2つの共有エキスパート)は現代の生産用LLMを忠実に反映している。すべてのトレーニングデータパイプライン、スクリプト、ログ、およびチェックポイントは公開されており、再現可能な実験を可能にする。6つの評価タスクにおいて、FLAME-MoEは同一のFLOPsでトレーニングされた密なベースラインに対して平均精度を最大3.4ポイント向上させた。完全なトレーニングトレースの透明性を活用し、我々は以下の初期分析を提示する:(i) エキスパートは異なるトークンサブセットに特化する傾向が強まる、(ii) 共活性化行列は疎なままであり、多様なエキスパートの使用を反映する、(iii) ルーティングの挙動はトレーニングの早い段階で安定する。すべてのコード、トレーニングログ、およびモデルチェックポイントはhttps://github.com/cmu-flame/FLAME-MoEで利用可能である。
English
Recent large language models such as Gemini-1.5, DeepSeek-V3, and Llama-4 increasingly adopt Mixture-of-Experts (MoE) architectures, which offer strong efficiency-performance trade-offs by activating only a fraction of the model per token. Yet academic researchers still lack a fully open, end-to-end MoE platform for investigating scaling, routing, and expert behavior. We release FLAME-MoE, a completely open-source research suite composed of seven decoder-only models, ranging from 38M to 1.7B active parameters, whose architecture--64 experts with top-8 gating and 2 shared experts--closely reflects modern production LLMs. All training data pipelines, scripts, logs, and checkpoints are publicly available to enable reproducible experimentation. Across six evaluation tasks, FLAME-MoE improves average accuracy by up to 3.4 points over dense baselines trained with identical FLOPs. Leveraging full training trace transparency, we present initial analyses showing that (i) experts increasingly specialize on distinct token subsets, (ii) co-activation matrices remain sparse, reflecting diverse expert usage, and (iii) routing behavior stabilizes early in training. All code, training logs, and model checkpoints are available at https://github.com/cmu-flame/FLAME-MoE.

Summary

AI-Generated Summary

PDF21May 27, 2025