FLAME-MoE : Une Plateforme de Recherche Transparente de Bout en Bout pour les Modèles de Langage à Mélange d'Experts
FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models
May 26, 2025
Auteurs: Hao Kang, Zichun Yu, Chenyan Xiong
cs.AI
Résumé
Les récents modèles de langage de grande envergure tels que Gemini-1.5, DeepSeek-V3 et Llama-4 adoptent de plus en plus des architectures de type Mixture-of-Experts (MoE), qui offrent un compromis efficacité-performance en activant seulement une fraction du modèle par token. Cependant, les chercheurs académiques manquent encore d'une plateforme MoE entièrement ouverte et de bout en bout pour étudier la mise à l'échelle, le routage et le comportement des experts. Nous présentons FLAME-MoE, une suite de recherche entièrement open-source composée de sept modèles décodeurs uniquement, allant de 38 millions à 1,7 milliard de paramètres actifs, dont l'architecture—64 experts avec un gating top-8 et 2 experts partagés—reflète étroitement les modèles de langage modernes en production. Tous les pipelines de données d'entraînement, scripts, logs et points de contrôle sont publiquement disponibles pour permettre une expérimentation reproductible. Sur six tâches d'évaluation, FLAME-MoE améliore la précision moyenne jusqu'à 3,4 points par rapport aux modèles denses entraînés avec un nombre identique d'opérations en virgule flottante (FLOPs). En tirant parti de la transparence complète des traces d'entraînement, nous présentons des analyses initiales montrant que (i) les experts se spécialisent de plus en plus sur des sous-ensembles distincts de tokens, (ii) les matrices de co-activation restent clairsemées, reflétant une utilisation diversifiée des experts, et (iii) le comportement de routage se stabilise tôt dans l'entraînement. Tous les codes, logs d'entraînement et points de contrôle des modèles sont disponibles à l'adresse https://github.com/cmu-flame/FLAME-MoE.
English
Recent large language models such as Gemini-1.5, DeepSeek-V3, and Llama-4
increasingly adopt Mixture-of-Experts (MoE) architectures, which offer strong
efficiency-performance trade-offs by activating only a fraction of the model
per token. Yet academic researchers still lack a fully open, end-to-end MoE
platform for investigating scaling, routing, and expert behavior. We release
FLAME-MoE, a completely open-source research suite composed of seven
decoder-only models, ranging from 38M to 1.7B active parameters, whose
architecture--64 experts with top-8 gating and 2 shared experts--closely
reflects modern production LLMs. All training data pipelines, scripts, logs,
and checkpoints are publicly available to enable reproducible experimentation.
Across six evaluation tasks, FLAME-MoE improves average accuracy by up to 3.4
points over dense baselines trained with identical FLOPs. Leveraging full
training trace transparency, we present initial analyses showing that (i)
experts increasingly specialize on distinct token subsets, (ii) co-activation
matrices remain sparse, reflecting diverse expert usage, and (iii) routing
behavior stabilizes early in training. All code, training logs, and model
checkpoints are available at https://github.com/cmu-flame/FLAME-MoE.Summary
AI-Generated Summary