FLAME-MoE: Прозрачная сквозная исследовательская платформа для языковых моделей с архитектурой "Смесь экспертов"
FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models
May 26, 2025
Авторы: Hao Kang, Zichun Yu, Chenyan Xiong
cs.AI
Аннотация
Современные крупные языковые модели, такие как Gemini-1.5, DeepSeek-V3 и Llama-4, всё чаще используют архитектуры Mixture-of-Experts (MoE), которые обеспечивают оптимальный баланс между эффективностью и производительностью, активируя лишь часть модели для каждого токена. Однако академическим исследователям до сих пор не хватает полностью открытой, сквозной платформы MoE для изучения масштабирования, маршрутизации и поведения экспертов. Мы представляем FLAME-MoE — полностью открытый исследовательский набор, состоящий из семи декодерных моделей с активными параметрами от 38 миллионов до 1,7 миллиарда, архитектура которых — 64 эксперта с топ-8 маршрутизацией и 2 общих эксперта — близко отражает современные промышленные LLM. Все конвейеры данных для обучения, скрипты, логи и контрольные точки доступны публично для обеспечения воспроизводимости экспериментов. На шести оценочных задачах FLAME-MoE улучшает среднюю точность до 3,4 пунктов по сравнению с плотными базовыми моделями, обученными с одинаковым количеством FLOP. Используя полную прозрачность трассировки обучения, мы представляем начальные анализы, показывающие, что (i) эксперты всё больше специализируются на различных подмножествах токенов, (ii) матрицы совместной активации остаются разреженными, отражая разнообразное использование экспертов, и (iii) поведение маршрутизации стабилизируется на ранних этапах обучения. Весь код, логи обучения и контрольные точки модели доступны по адресу https://github.com/cmu-flame/FLAME-MoE.
English
Recent large language models such as Gemini-1.5, DeepSeek-V3, and Llama-4
increasingly adopt Mixture-of-Experts (MoE) architectures, which offer strong
efficiency-performance trade-offs by activating only a fraction of the model
per token. Yet academic researchers still lack a fully open, end-to-end MoE
platform for investigating scaling, routing, and expert behavior. We release
FLAME-MoE, a completely open-source research suite composed of seven
decoder-only models, ranging from 38M to 1.7B active parameters, whose
architecture--64 experts with top-8 gating and 2 shared experts--closely
reflects modern production LLMs. All training data pipelines, scripts, logs,
and checkpoints are publicly available to enable reproducible experimentation.
Across six evaluation tasks, FLAME-MoE improves average accuracy by up to 3.4
points over dense baselines trained with identical FLOPs. Leveraging full
training trace transparency, we present initial analyses showing that (i)
experts increasingly specialize on distinct token subsets, (ii) co-activation
matrices remain sparse, reflecting diverse expert usage, and (iii) routing
behavior stabilizes early in training. All code, training logs, and model
checkpoints are available at https://github.com/cmu-flame/FLAME-MoE.Summary
AI-Generated Summary