FLAME-MoE: Uma Plataforma de Pesquisa Transparente de Ponta a Ponta para Modelos de Linguagem com Mistura de Especialistas

Resumo

Modelos de linguagem recentes, como Gemini-1.5, DeepSeek-V3 e Llama-4, estão adotando cada vez mais arquiteturas de Mistura de Especialistas (MoE), que oferecem um bom equilíbrio entre eficiência e desempenho ao ativar apenas uma fração do modelo por token. No entanto, pesquisadores acadêmicos ainda carecem de uma plataforma MoE totalmente aberta e de ponta a ponta para investigar escalonamento, roteamento e comportamento dos especialistas. Lançamos o FLAME-MoE, um conjunto de pesquisa completamente de código aberto composto por sete modelos apenas de decodificação, variando de 38M a 1,7B parâmetros ativos, cuja arquitetura—64 especialistas com gateamento top-8 e 2 especialistas compartilhados—reflete de perto os LLMs modernos de produção. Todos os pipelines de dados de treinamento, scripts, logs e checkpoints estão publicamente disponíveis para permitir experimentação reproduzível. Em seis tarefas de avaliação, o FLAME-MoE melhora a precisão média em até 3,4 pontos em relação às baselines densas treinadas com o mesmo número de FLOPs. Aproveitando a transparência completa do rastreamento de treinamento, apresentamos análises iniciais mostrando que (i) os especialistas se especializam cada vez mais em subconjuntos distintos de tokens, (ii) as matrizes de co-ativação permanecem esparsas, refletindo um uso diversificado dos especialistas, e (iii) o comportamento de roteamento se estabiliza no início do treinamento. Todo o código, logs de treinamento e checkpoints dos modelos estão disponíveis em https://github.com/cmu-flame/FLAME-MoE.

English

Recent large language models such as Gemini-1.5, DeepSeek-V3, and Llama-4 increasingly adopt Mixture-of-Experts (MoE) architectures, which offer strong efficiency-performance trade-offs by activating only a fraction of the model per token. Yet academic researchers still lack a fully open, end-to-end MoE platform for investigating scaling, routing, and expert behavior. We release FLAME-MoE, a completely open-source research suite composed of seven decoder-only models, ranging from 38M to 1.7B active parameters, whose architecture--64 experts with top-8 gating and 2 shared experts--closely reflects modern production LLMs. All training data pipelines, scripts, logs, and checkpoints are publicly available to enable reproducible experimentation. Across six evaluation tasks, FLAME-MoE improves average accuracy by up to 3.4 points over dense baselines trained with identical FLOPs. Leveraging full training trace transparency, we present initial analyses showing that (i) experts increasingly specialize on distinct token subsets, (ii) co-activation matrices remain sparse, reflecting diverse expert usage, and (iii) routing behavior stabilizes early in training. All code, training logs, and model checkpoints are available at https://github.com/cmu-flame/FLAME-MoE.

FLAME-MoE: Uma Plataforma de Pesquisa Transparente de Ponta a Ponta para Modelos de Linguagem com Mistura de Especialistas

FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models

Resumo

Support