Treinamento de Modelos de Base em uma Plataforma AMD Full-Stack: Computação, Redes e Design de Sistema

Resumo

Apresentamos o primeiro estudo de pré-treinamento em larga escala com mistura de especialistas (MoE) realizado exclusivamente em hardware AMD, utilizando GPUs MI300X com interconexão Pollara. Destilamos orientações práticas para o projeto de sistemas e de modelos. No aspecto de sistemas, fornecemos uma caracterização abrangente do cluster e da rede: microbenchmarks para todos os coletivos principais (all-reduce, reduce-scatter, all-gather, broadcast) em vários tamanhos de mensagem e contagens de GPU no Pollara. Até onde sabemos, este é o primeiro estudo nesta escala. Adicionalmente, fornecemos microbenchmarks do MI300X sobre dimensionamento de kernels e largura de banda de memória para informar o projeto do modelo. No aspecto de modelagem, introduzimos e aplicamos regras de dimensionamento de transformers otimizadas para o MI300X para blocos de atenção e MLP, e justificamos larguras de MoE que otimizam conjuntamente a taxa de transferência do treinamento e a latência de inferência. Descrevemos nossa pilha de treinamento em profundidade, incluindo utilitários frequentemente negligenciados, como tolerância a falhas e remodelagem de checkpoints, bem como informações detalhadas sobre nossa receita de treinamento. Também fornecemos uma prévia de nossa arquitetura de modelo e do modelo base - ZAYA1 (760M parâmetros ativos, 8.3B parâmetros totais em MoE) - que será aprimorado em artigos futuros. O ZAYA1-base atinge desempenho comparável a modelos base líderes, como Qwen3-4B e Gemma3-12B em sua escala e superiores, e supera modelos incluindo Llama-3-8B e OLMoE em benchmarks de raciocínio, matemática e codificação. Juntos, esses resultados demonstram que o hardware AMD, a rede e a pilha de software estão maduros e otimizados o suficiente para um pré-treinamento em larga escala competitivo.

English

We report on the first large-scale mixture-of-experts (MoE) pretraining study on pure AMD hardware, utilizing both MI300X GPUs with Pollara interconnect. We distill practical guidance for both systems and model design. On the systems side, we deliver a comprehensive cluster and networking characterization: microbenchmarks for all core collectives (all-reduce, reduce-scatter, all-gather, broadcast) across message sizes and GPU counts on Pollara. To our knowledge, this is the first at this scale. We further provide MI300X microbenchmarks on kernel sizing and memory bandwidth to inform model design. On the modeling side, we introduce and apply MI300X-aware transformer sizing rules for attention and MLP blocks and justify MoE widths that jointly optimize training throughput and inference latency. We describe our training stack in depth, including often-ignored utilities such as fault-tolerance and checkpoint-reshaping, as well as detailed information on our training recipe. We also provide a preview of our model architecture and base model - ZAYA1 (760M active, 8.3B total parameters MoE) - which will be further improved upon in forthcoming papers. ZAYA1-base achieves performance comparable to leading base models such as Qwen3-4B and Gemma3-12B at its scale and larger, and outperforms models including Llama-3-8B and OLMoE across reasoning, mathematics, and coding benchmarks. Together, these results demonstrate that the AMD hardware, network, and software stack are mature and optimized enough for competitive large-scale pretraining.

Treinamento de Modelos de Base em uma Plataforma AMD Full-Stack: Computação, Redes e Design de Sistema

Training Foundation Models on a Full-Stack AMD Platform: Compute, Networking, and System Design

Resumo

Support