ChatPaper.aiChatPaper

FLAME-MoE: Eine transparente End-to-End-Forschungsplattform für Mixture-of-Experts-Sprachmodelle

FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models

May 26, 2025
Autoren: Hao Kang, Zichun Yu, Chenyan Xiong
cs.AI

Zusammenfassung

Aktuelle große Sprachmodelle wie Gemini-1.5, DeepSeek-V3 und Llama-4 setzen zunehmend auf Mixture-of-Experts (MoE)-Architekturen, die durch die Aktivierung nur eines Bruchteils des Modells pro Token ein starkes Effizienz-Leistungs-Verhältnis bieten. Dennoch fehlt akademischen Forschern bisher eine vollständig offene, end-to-end MoE-Plattform, um Skalierung, Routing und das Verhalten von Experten zu untersuchen. Wir stellen FLAME-MoE vor, ein vollständig quelloffenes Forschungssystem, das aus sieben Decoder-only-Modellen besteht, die von 38M bis 1,7B aktiven Parametern reichen. Die Architektur – 64 Experten mit Top-8-Gating und 2 gemeinsamen Experten – spiegelt eng moderne produktive LLMs wider. Alle Trainingsdaten-Pipelines, Skripte, Protokolle und Checkpoints sind öffentlich verfügbar, um reproduzierbare Experimente zu ermöglichen. In sechs Evaluierungsaufgaben verbessert FLAME-MoE die durchschnittliche Genauigkeit um bis zu 3,4 Punkte im Vergleich zu dichten Baselines, die mit identischen FLOPs trainiert wurden. Durch die vollständige Transparenz der Trainingsspuren präsentieren wir erste Analysen, die zeigen, dass (i) Experten zunehmend auf bestimmte Token-Teilmengen spezialisiert sind, (ii) Koaktivierungsmatrizen spärlich bleiben, was eine vielfältige Nutzung der Experten widerspiegelt, und (iii) das Routing-Verhalten früh im Training stabilisiert wird. Der gesamte Code, Trainingsprotokolle und Modell-Checkpoints sind unter https://github.com/cmu-flame/FLAME-MoE verfügbar.
English
Recent large language models such as Gemini-1.5, DeepSeek-V3, and Llama-4 increasingly adopt Mixture-of-Experts (MoE) architectures, which offer strong efficiency-performance trade-offs by activating only a fraction of the model per token. Yet academic researchers still lack a fully open, end-to-end MoE platform for investigating scaling, routing, and expert behavior. We release FLAME-MoE, a completely open-source research suite composed of seven decoder-only models, ranging from 38M to 1.7B active parameters, whose architecture--64 experts with top-8 gating and 2 shared experts--closely reflects modern production LLMs. All training data pipelines, scripts, logs, and checkpoints are publicly available to enable reproducible experimentation. Across six evaluation tasks, FLAME-MoE improves average accuracy by up to 3.4 points over dense baselines trained with identical FLOPs. Leveraging full training trace transparency, we present initial analyses showing that (i) experts increasingly specialize on distinct token subsets, (ii) co-activation matrices remain sparse, reflecting diverse expert usage, and (iii) routing behavior stabilizes early in training. All code, training logs, and model checkpoints are available at https://github.com/cmu-flame/FLAME-MoE.

Summary

AI-Generated Summary

PDF21May 27, 2025