FLAME-MoE: Una Plataforma de Investigación Transparente de Extremo a Extremo para Modelos de Lenguaje de Mezcla de Expertos
FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models
May 26, 2025
Autores: Hao Kang, Zichun Yu, Chenyan Xiong
cs.AI
Resumen
Los modelos de lenguaje recientes de gran escala, como Gemini-1.5, DeepSeek-V3 y Llama-4, adoptan cada vez más arquitecturas de Mezcla de Expertos (MoE, por sus siglas en inglés), las cuales ofrecen un equilibrio eficiente entre rendimiento y eficiencia al activar solo una fracción del modelo por token. Sin embargo, los investigadores académicos aún carecen de una plataforma MoE completamente abierta y de extremo a extremo para investigar la escalabilidad, el enrutamiento y el comportamiento de los expertos. Presentamos FLAME-MoE, un conjunto de investigación completamente de código abierto compuesto por siete modelos de solo decodificación, que van desde 38M hasta 1.7B de parámetros activos, cuya arquitectura—64 expertos con selección top-8 y 2 expertos compartidos—refleja de cerca los LLMs modernos de producción. Todos los pipelines de datos de entrenamiento, scripts, registros y puntos de control están disponibles públicamente para permitir experimentación reproducible. En seis tareas de evaluación, FLAME-MoE mejora la precisión promedio hasta en 3.4 puntos sobre líneas base densas entrenadas con el mismo número de operaciones de punto flotante (FLOPs). Aprovechando la transparencia completa del seguimiento del entrenamiento, presentamos análisis iniciales que muestran que (i) los expertos se especializan cada vez más en subconjuntos distintos de tokens, (ii) las matrices de coactivación permanecen dispersas, reflejando un uso diverso de los expertos, y (iii) el comportamiento de enrutamiento se estabiliza temprano en el entrenamiento. Todo el código, registros de entrenamiento y puntos de control del modelo están disponibles en https://github.com/cmu-flame/FLAME-MoE.
English
Recent large language models such as Gemini-1.5, DeepSeek-V3, and Llama-4
increasingly adopt Mixture-of-Experts (MoE) architectures, which offer strong
efficiency-performance trade-offs by activating only a fraction of the model
per token. Yet academic researchers still lack a fully open, end-to-end MoE
platform for investigating scaling, routing, and expert behavior. We release
FLAME-MoE, a completely open-source research suite composed of seven
decoder-only models, ranging from 38M to 1.7B active parameters, whose
architecture--64 experts with top-8 gating and 2 shared experts--closely
reflects modern production LLMs. All training data pipelines, scripts, logs,
and checkpoints are publicly available to enable reproducible experimentation.
Across six evaluation tasks, FLAME-MoE improves average accuracy by up to 3.4
points over dense baselines trained with identical FLOPs. Leveraging full
training trace transparency, we present initial analyses showing that (i)
experts increasingly specialize on distinct token subsets, (ii) co-activation
matrices remain sparse, reflecting diverse expert usage, and (iii) routing
behavior stabilizes early in training. All code, training logs, and model
checkpoints are available at https://github.com/cmu-flame/FLAME-MoE.Summary
AI-Generated Summary