FLAME-MoE: Uma Plataforma de Pesquisa Transparente de Ponta a Ponta para Modelos de Linguagem com Mistura de Especialistas
FLAME-MoE: A Transparent End-to-End Research Platform for Mixture-of-Experts Language Models
May 26, 2025
Autores: Hao Kang, Zichun Yu, Chenyan Xiong
cs.AI
Resumo
Modelos de linguagem recentes, como Gemini-1.5, DeepSeek-V3 e Llama-4, estão adotando cada vez mais arquiteturas de Mistura de Especialistas (MoE), que oferecem um bom equilíbrio entre eficiência e desempenho ao ativar apenas uma fração do modelo por token. No entanto, pesquisadores acadêmicos ainda carecem de uma plataforma MoE totalmente aberta e de ponta a ponta para investigar escalonamento, roteamento e comportamento dos especialistas. Lançamos o FLAME-MoE, um conjunto de pesquisa completamente de código aberto composto por sete modelos apenas de decodificação, variando de 38M a 1,7B parâmetros ativos, cuja arquitetura—64 especialistas com gateamento top-8 e 2 especialistas compartilhados—reflete de perto os LLMs modernos de produção. Todos os pipelines de dados de treinamento, scripts, logs e checkpoints estão publicamente disponíveis para permitir experimentação reproduzível. Em seis tarefas de avaliação, o FLAME-MoE melhora a precisão média em até 3,4 pontos em relação às baselines densas treinadas com o mesmo número de FLOPs. Aproveitando a transparência completa do rastreamento de treinamento, apresentamos análises iniciais mostrando que (i) os especialistas se especializam cada vez mais em subconjuntos distintos de tokens, (ii) as matrizes de co-ativação permanecem esparsas, refletindo um uso diversificado dos especialistas, e (iii) o comportamento de roteamento se estabiliza no início do treinamento. Todo o código, logs de treinamento e checkpoints dos modelos estão disponíveis em https://github.com/cmu-flame/FLAME-MoE.
English
Recent large language models such as Gemini-1.5, DeepSeek-V3, and Llama-4
increasingly adopt Mixture-of-Experts (MoE) architectures, which offer strong
efficiency-performance trade-offs by activating only a fraction of the model
per token. Yet academic researchers still lack a fully open, end-to-end MoE
platform for investigating scaling, routing, and expert behavior. We release
FLAME-MoE, a completely open-source research suite composed of seven
decoder-only models, ranging from 38M to 1.7B active parameters, whose
architecture--64 experts with top-8 gating and 2 shared experts--closely
reflects modern production LLMs. All training data pipelines, scripts, logs,
and checkpoints are publicly available to enable reproducible experimentation.
Across six evaluation tasks, FLAME-MoE improves average accuracy by up to 3.4
points over dense baselines trained with identical FLOPs. Leveraging full
training trace transparency, we present initial analyses showing that (i)
experts increasingly specialize on distinct token subsets, (ii) co-activation
matrices remain sparse, reflecting diverse expert usage, and (iii) routing
behavior stabilizes early in training. All code, training logs, and model
checkpoints are available at https://github.com/cmu-flame/FLAME-MoE.