FLAME-MoE: Una Piattaforma di Ricerca Trasparente End-to-End per Modelli Linguistici a Miscela di Esperti
FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models
May 26, 2025
Autori: Hao Kang, Zichun Yu, Chenyan Xiong
cs.AI
Abstract
I recenti modelli linguistici di grandi dimensioni come Gemini-1.5, DeepSeek-V3 e Llama-4 adottano sempre più architetture Mixture-of-Experts (MoE), che offrono un ottimo compromesso tra efficienza e prestazioni attivando solo una frazione del modello per token. Tuttavia, i ricercatori accademici mancano ancora di una piattaforma MoE completamente aperta e end-to-end per investigare il ridimensionamento, il routing e il comportamento degli esperti. Rilasciamo FLAME-MoE, una suite di ricerca completamente open-source composta da sette modelli decoder-only, che vanno da 38M a 1.7B parametri attivi, la cui architettura—64 esperti con top-8 gating e 2 esperti condivisi—riflette da vicino i moderni LLM di produzione. Tutte le pipeline di dati di addestramento, script, log e checkpoint sono pubblicamente disponibili per consentire esperimenti riproducibili. In sei task di valutazione, FLAME-MoE migliora l'accuratezza media fino a 3,4 punti rispetto ai baseline densi addestrati con lo stesso numero di FLOP. Sfruttando la completa trasparenza delle tracce di addestramento, presentiamo analisi iniziali che mostrano che (i) gli esperti si specializzano sempre più su sottoinsiemi distinti di token, (ii) le matrici di co-attivazione rimangono sparse, riflettendo un utilizzo diversificato degli esperti, e (iii) il comportamento di routing si stabilizza precocemente durante l'addestramento. Tutto il codice, i log di addestramento e i checkpoint dei modelli sono disponibili su https://github.com/cmu-flame/FLAME-MoE.
English
Recent large language models such as Gemini-1.5, DeepSeek-V3, and Llama-4
increasingly adopt Mixture-of-Experts (MoE) architectures, which offer strong
efficiency-performance trade-offs by activating only a fraction of the model
per token. Yet academic researchers still lack a fully open, end-to-end MoE
platform for investigating scaling, routing, and expert behavior. We release
FLAME-MoE, a completely open-source research suite composed of seven
decoder-only models, ranging from 38M to 1.7B active parameters, whose
architecture--64 experts with top-8 gating and 2 shared experts--closely
reflects modern production LLMs. All training data pipelines, scripts, logs,
and checkpoints are publicly available to enable reproducible experimentation.
Across six evaluation tasks, FLAME-MoE improves average accuracy by up to 3.4
points over dense baselines trained with identical FLOPs. Leveraging full
training trace transparency, we present initial analyses showing that (i)
experts increasingly specialize on distinct token subsets, (ii) co-activation
matrices remain sparse, reflecting diverse expert usage, and (iii) routing
behavior stabilizes early in training. All code, training logs, and model
checkpoints are available at https://github.com/cmu-flame/FLAME-MoE.