FLAME-MoE: Una Plataforma de Investigación Transparente de Extremo a Extremo para Modelos de Lenguaje de Mezcla de Expertos

Resumen

Los modelos de lenguaje recientes de gran escala, como Gemini-1.5, DeepSeek-V3 y Llama-4, adoptan cada vez más arquitecturas de Mezcla de Expertos (MoE, por sus siglas en inglés), las cuales ofrecen un equilibrio eficiente entre rendimiento y eficiencia al activar solo una fracción del modelo por token. Sin embargo, los investigadores académicos aún carecen de una plataforma MoE completamente abierta y de extremo a extremo para investigar la escalabilidad, el enrutamiento y el comportamiento de los expertos. Presentamos FLAME-MoE, un conjunto de investigación completamente de código abierto compuesto por siete modelos de solo decodificación, que van desde 38M hasta 1.7B de parámetros activos, cuya arquitectura—64 expertos con selección top-8 y 2 expertos compartidos—refleja de cerca los LLMs modernos de producción. Todos los pipelines de datos de entrenamiento, scripts, registros y puntos de control están disponibles públicamente para permitir experimentación reproducible. En seis tareas de evaluación, FLAME-MoE mejora la precisión promedio hasta en 3.4 puntos sobre líneas base densas entrenadas con el mismo número de operaciones de punto flotante (FLOPs). Aprovechando la transparencia completa del seguimiento del entrenamiento, presentamos análisis iniciales que muestran que (i) los expertos se especializan cada vez más en subconjuntos distintos de tokens, (ii) las matrices de coactivación permanecen dispersas, reflejando un uso diverso de los expertos, y (iii) el comportamiento de enrutamiento se estabiliza temprano en el entrenamiento. Todo el código, registros de entrenamiento y puntos de control del modelo están disponibles en https://github.com/cmu-flame/FLAME-MoE.

English

Recent large language models such as Gemini-1.5, DeepSeek-V3, and Llama-4 increasingly adopt Mixture-of-Experts (MoE) architectures, which offer strong efficiency-performance trade-offs by activating only a fraction of the model per token. Yet academic researchers still lack a fully open, end-to-end MoE platform for investigating scaling, routing, and expert behavior. We release FLAME-MoE, a completely open-source research suite composed of seven decoder-only models, ranging from 38M to 1.7B active parameters, whose architecture--64 experts with top-8 gating and 2 shared experts--closely reflects modern production LLMs. All training data pipelines, scripts, logs, and checkpoints are publicly available to enable reproducible experimentation. Across six evaluation tasks, FLAME-MoE improves average accuracy by up to 3.4 points over dense baselines trained with identical FLOPs. Leveraging full training trace transparency, we present initial analyses showing that (i) experts increasingly specialize on distinct token subsets, (ii) co-activation matrices remain sparse, reflecting diverse expert usage, and (iii) routing behavior stabilizes early in training. All code, training logs, and model checkpoints are available at https://github.com/cmu-flame/FLAME-MoE.

FLAME-MoE: Una Plataforma de Investigación Transparente de Extremo a Extremo para Modelos de Lenguaje de Mezcla de Expertos

FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models

Resumen

Support