FLAME-MoE: Una Piattaforma di Ricerca Trasparente End-to-End per Modelli Linguistici a Miscela di Esperti

Abstract

I recenti modelli linguistici di grandi dimensioni come Gemini-1.5, DeepSeek-V3 e Llama-4 adottano sempre più architetture Mixture-of-Experts (MoE), che offrono un ottimo compromesso tra efficienza e prestazioni attivando solo una frazione del modello per token. Tuttavia, i ricercatori accademici mancano ancora di una piattaforma MoE completamente aperta e end-to-end per investigare il ridimensionamento, il routing e il comportamento degli esperti. Rilasciamo FLAME-MoE, una suite di ricerca completamente open-source composta da sette modelli decoder-only, che vanno da 38M a 1.7B parametri attivi, la cui architettura—64 esperti con top-8 gating e 2 esperti condivisi—riflette da vicino i moderni LLM di produzione. Tutte le pipeline di dati di addestramento, script, log e checkpoint sono pubblicamente disponibili per consentire esperimenti riproducibili. In sei task di valutazione, FLAME-MoE migliora l'accuratezza media fino a 3,4 punti rispetto ai baseline densi addestrati con lo stesso numero di FLOP. Sfruttando la completa trasparenza delle tracce di addestramento, presentiamo analisi iniziali che mostrano che (i) gli esperti si specializzano sempre più su sottoinsiemi distinti di token, (ii) le matrici di co-attivazione rimangono sparse, riflettendo un utilizzo diversificato degli esperti, e (iii) il comportamento di routing si stabilizza precocemente durante l'addestramento. Tutto il codice, i log di addestramento e i checkpoint dei modelli sono disponibili su https://github.com/cmu-flame/FLAME-MoE.

English

Recent large language models such as Gemini-1.5, DeepSeek-V3, and Llama-4 increasingly adopt Mixture-of-Experts (MoE) architectures, which offer strong efficiency-performance trade-offs by activating only a fraction of the model per token. Yet academic researchers still lack a fully open, end-to-end MoE platform for investigating scaling, routing, and expert behavior. We release FLAME-MoE, a completely open-source research suite composed of seven decoder-only models, ranging from 38M to 1.7B active parameters, whose architecture--64 experts with top-8 gating and 2 shared experts--closely reflects modern production LLMs. All training data pipelines, scripts, logs, and checkpoints are publicly available to enable reproducible experimentation. Across six evaluation tasks, FLAME-MoE improves average accuracy by up to 3.4 points over dense baselines trained with identical FLOPs. Leveraging full training trace transparency, we present initial analyses showing that (i) experts increasingly specialize on distinct token subsets, (ii) co-activation matrices remain sparse, reflecting diverse expert usage, and (iii) routing behavior stabilizes early in training. All code, training logs, and model checkpoints are available at https://github.com/cmu-flame/FLAME-MoE.

FLAME-MoE: Una Piattaforma di Ricerca Trasparente End-to-End per Modelli Linguistici a Miscela di Esperti

FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models

Abstract

Support