FLAME-MoE : Une Plateforme de Recherche Transparente de Bout en Bout pour les Modèles de Langage à Mélange d'Experts

papers.abstract

Les récents modèles de langage de grande envergure tels que Gemini-1.5, DeepSeek-V3 et Llama-4 adoptent de plus en plus des architectures de type Mixture-of-Experts (MoE), qui offrent un compromis efficacité-performance en activant seulement une fraction du modèle par token. Cependant, les chercheurs académiques manquent encore d'une plateforme MoE entièrement ouverte et de bout en bout pour étudier la mise à l'échelle, le routage et le comportement des experts. Nous présentons FLAME-MoE, une suite de recherche entièrement open-source composée de sept modèles décodeurs uniquement, allant de 38 millions à 1,7 milliard de paramètres actifs, dont l'architecture—64 experts avec un gating top-8 et 2 experts partagés—reflète étroitement les modèles de langage modernes en production. Tous les pipelines de données d'entraînement, scripts, logs et points de contrôle sont publiquement disponibles pour permettre une expérimentation reproductible. Sur six tâches d'évaluation, FLAME-MoE améliore la précision moyenne jusqu'à 3,4 points par rapport aux modèles denses entraînés avec un nombre identique d'opérations en virgule flottante (FLOPs). En tirant parti de la transparence complète des traces d'entraînement, nous présentons des analyses initiales montrant que (i) les experts se spécialisent de plus en plus sur des sous-ensembles distincts de tokens, (ii) les matrices de co-activation restent clairsemées, reflétant une utilisation diversifiée des experts, et (iii) le comportement de routage se stabilise tôt dans l'entraînement. Tous les codes, logs d'entraînement et points de contrôle des modèles sont disponibles à l'adresse https://github.com/cmu-flame/FLAME-MoE.

English

Recent large language models such as Gemini-1.5, DeepSeek-V3, and Llama-4 increasingly adopt Mixture-of-Experts (MoE) architectures, which offer strong efficiency-performance trade-offs by activating only a fraction of the model per token. Yet academic researchers still lack a fully open, end-to-end MoE platform for investigating scaling, routing, and expert behavior. We release FLAME-MoE, a completely open-source research suite composed of seven decoder-only models, ranging from 38M to 1.7B active parameters, whose architecture--64 experts with top-8 gating and 2 shared experts--closely reflects modern production LLMs. All training data pipelines, scripts, logs, and checkpoints are publicly available to enable reproducible experimentation. Across six evaluation tasks, FLAME-MoE improves average accuracy by up to 3.4 points over dense baselines trained with identical FLOPs. Leveraging full training trace transparency, we present initial analyses showing that (i) experts increasingly specialize on distinct token subsets, (ii) co-activation matrices remain sparse, reflecting diverse expert usage, and (iii) routing behavior stabilizes early in training. All code, training logs, and model checkpoints are available at https://github.com/cmu-flame/FLAME-MoE.

FLAME-MoE : Une Plateforme de Recherche Transparente de Bout en Bout pour les Modèles de Langage à Mélange d'Experts

FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models

papers.abstract

Support