FLAME-MoE: Een Transparant End-to-End Onderzoeksplatform voor Mixture-of-Experts Taalmodellen
FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models
May 26, 2025
Auteurs: Hao Kang, Zichun Yu, Chenyan Xiong
cs.AI
Samenvatting
Recente grote taalmodellen zoals Gemini-1.5, DeepSeek-V3 en Llama-4
adopteren steeds vaker Mixture-of-Experts (MoE)-architecturen, die een sterke
efficiëntie-prestatiebalans bieden door slechts een fractie van het model per
token te activeren. Toch ontbreekt het academische onderzoekers nog steeds aan een volledig open, end-to-end MoE-platform voor het onderzoeken van schaling, routering en expertgedrag. Wij brengen FLAME-MoE uit, een volledig open-source onderzoekssuite bestaande uit zeven
decoder-only modellen, variërend van 38M tot 1.7B actieve parameters, waarvan de architectuur--64 experts met top-8 gating en 2 gedeelde experts--nauw aansluit bij moderne productie-LLM's. Alle trainingsdatapijplijnen, scripts, logs en checkpoints zijn openbaar beschikbaar om reproduceerbaar experimenteren mogelijk te maken. Over zes evaluatietaken verbetert FLAME-MoE de gemiddelde nauwkeurigheid met maximaal 3,4
punten ten opzichte van dichte basislijnen die met identieke FLOPs zijn getraind. Door gebruik te maken van volledige transparantie van de trainingssporen, presenteren we initiële analyses die aantonen dat (i) experts zich steeds meer specialiseren op verschillende tokensubsets, (ii) co-activeringsmatrices spaarzaam blijven, wat een divers gebruik van experts weerspiegelt, en (iii) routeringsgedrag vroeg in de training stabiliseert. Alle code, trainingslogs en modelcheckpoints zijn beschikbaar op https://github.com/cmu-flame/FLAME-MoE.
English
Recent large language models such as Gemini-1.5, DeepSeek-V3, and Llama-4
increasingly adopt Mixture-of-Experts (MoE) architectures, which offer strong
efficiency-performance trade-offs by activating only a fraction of the model
per token. Yet academic researchers still lack a fully open, end-to-end MoE
platform for investigating scaling, routing, and expert behavior. We release
FLAME-MoE, a completely open-source research suite composed of seven
decoder-only models, ranging from 38M to 1.7B active parameters, whose
architecture--64 experts with top-8 gating and 2 shared experts--closely
reflects modern production LLMs. All training data pipelines, scripts, logs,
and checkpoints are publicly available to enable reproducible experimentation.
Across six evaluation tasks, FLAME-MoE improves average accuracy by up to 3.4
points over dense baselines trained with identical FLOPs. Leveraging full
training trace transparency, we present initial analyses showing that (i)
experts increasingly specialize on distinct token subsets, (ii) co-activation
matrices remain sparse, reflecting diverse expert usage, and (iii) routing
behavior stabilizes early in training. All code, training logs, and model
checkpoints are available at https://github.com/cmu-flame/FLAME-MoE.