FLAME-MoE: Een Transparant End-to-End Onderzoeksplatform voor Mixture-of-Experts Taalmodellen

Samenvatting

Recente grote taalmodellen zoals Gemini-1.5, DeepSeek-V3 en Llama-4 adopteren steeds vaker Mixture-of-Experts (MoE)-architecturen, die een sterke efficiëntie-prestatiebalans bieden door slechts een fractie van het model per token te activeren. Toch ontbreekt het academische onderzoekers nog steeds aan een volledig open, end-to-end MoE-platform voor het onderzoeken van schaling, routering en expertgedrag. Wij brengen FLAME-MoE uit, een volledig open-source onderzoekssuite bestaande uit zeven decoder-only modellen, variërend van 38M tot 1.7B actieve parameters, waarvan de architectuur--64 experts met top-8 gating en 2 gedeelde experts--nauw aansluit bij moderne productie-LLM's. Alle trainingsdatapijplijnen, scripts, logs en checkpoints zijn openbaar beschikbaar om reproduceerbaar experimenteren mogelijk te maken. Over zes evaluatietaken verbetert FLAME-MoE de gemiddelde nauwkeurigheid met maximaal 3,4 punten ten opzichte van dichte basislijnen die met identieke FLOPs zijn getraind. Door gebruik te maken van volledige transparantie van de trainingssporen, presenteren we initiële analyses die aantonen dat (i) experts zich steeds meer specialiseren op verschillende tokensubsets, (ii) co-activeringsmatrices spaarzaam blijven, wat een divers gebruik van experts weerspiegelt, en (iii) routeringsgedrag vroeg in de training stabiliseert. Alle code, trainingslogs en modelcheckpoints zijn beschikbaar op https://github.com/cmu-flame/FLAME-MoE.

English

Recent large language models such as Gemini-1.5, DeepSeek-V3, and Llama-4 increasingly adopt Mixture-of-Experts (MoE) architectures, which offer strong efficiency-performance trade-offs by activating only a fraction of the model per token. Yet academic researchers still lack a fully open, end-to-end MoE platform for investigating scaling, routing, and expert behavior. We release FLAME-MoE, a completely open-source research suite composed of seven decoder-only models, ranging from 38M to 1.7B active parameters, whose architecture--64 experts with top-8 gating and 2 shared experts--closely reflects modern production LLMs. All training data pipelines, scripts, logs, and checkpoints are publicly available to enable reproducible experimentation. Across six evaluation tasks, FLAME-MoE improves average accuracy by up to 3.4 points over dense baselines trained with identical FLOPs. Leveraging full training trace transparency, we present initial analyses showing that (i) experts increasingly specialize on distinct token subsets, (ii) co-activation matrices remain sparse, reflecting diverse expert usage, and (iii) routing behavior stabilizes early in training. All code, training logs, and model checkpoints are available at https://github.com/cmu-flame/FLAME-MoE.

FLAME-MoE: Een Transparant End-to-End Onderzoeksplatform voor Mixture-of-Experts Taalmodellen

FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models

Samenvatting

Support