ChatPaper.aiChatPaper

Addestramento di Modelli Fondazionali su una Piattaforma AMD Full-Stack: Calcolo, Rete e Progettazione di Sistema

Training Foundation Models on a Full-Stack AMD Platform: Compute, Networking, and System Design

November 21, 2025
Autori: Quentin Anthony, Yury Tokpanov, Skyler Szot, Srivatsan Rajagopal, Praneeth Medepalli, Rishi Iyer, Vasu Shyam, Anna Golubeva, Ansh Chaurasia, Xiao Yang, Tomas Figliolia, Robert Washbourne, Drew Thorstensen, Amartey Pearson, Zack Grossbart, Jason van Patten, Emad Barsoum, Zhenyu Gu, Yao Fu, Beren Millidge
cs.AI

Abstract

Riportiamo il primo studio su larga scala di pre-addestramento di modelli Mixture-of-Experts (MoE) condotto esclusivamente su hardware AMD, utilizzando GPU MI300X con interconnessione Pollara. Distilliamo indicazioni pratiche sia per la progettazione dei sistemi che dei modelli. Dal punto di vista dei sistemi, forniamo una caratterizzazione completa del cluster e delle reti: micro-benchmark per tutte le operazioni collettive fondamentali (all-reduce, reduce-scatter, all-gather, broadcast) su diverse dimensioni dei messaggi e numeri di GPU su Pollara. A nostra conoscenza, questo è il primo studio di questa portata. Forniamo inoltre micro-benchmark MI300X sulla dimensione dei kernel e sulla larghezza di banda della memoria per orientare la progettazione del modello. Sul versante modellistico, introduciamo e applichiamo regole di dimensionamento per transformer ottimizzate per MI300X per i blocchi di attention e MLP, e giustifichiamo ampiezze MoE che ottimizzano congiuntamente il throughput di addestramento e la latenza di inferenza. Descriviamo in profondità il nostro stack di addestramento, includendo utility spesso trascurate come la tolleranza ai guasti e il rimodellamento dei checkpoint, oltre a informazioni dettagliate sulla nostra ricetta di addestramento. Forniamo anche un'anteprima della nostra architettura di modello e del modello base - ZAYA1 (760M parametri attivi, 8.3B parametri totali MoE) - che sarà ulteriormente migliorato nei prossimi articoli. ZAYA1-base raggiunge prestazioni paragonabili a modelli base leader come Qwen3-4B e Gemma3-12B della sua scala e superiori, e supera modelli tra cui Llama-3-8B e OLMoE in benchmark di ragionamento, matematica e coding. Nel complesso, questi risultati dimostrano che l'hardware AMD, la rete e lo stack software sono sufficientemente maturi e ottimizzati per un pre-addestramento competitivo su larga scala.
English
We report on the first large-scale mixture-of-experts (MoE) pretraining study on pure AMD hardware, utilizing both MI300X GPUs with Pollara interconnect. We distill practical guidance for both systems and model design. On the systems side, we deliver a comprehensive cluster and networking characterization: microbenchmarks for all core collectives (all-reduce, reduce-scatter, all-gather, broadcast) across message sizes and GPU counts on Pollara. To our knowledge, this is the first at this scale. We further provide MI300X microbenchmarks on kernel sizing and memory bandwidth to inform model design. On the modeling side, we introduce and apply MI300X-aware transformer sizing rules for attention and MLP blocks and justify MoE widths that jointly optimize training throughput and inference latency. We describe our training stack in depth, including often-ignored utilities such as fault-tolerance and checkpoint-reshaping, as well as detailed information on our training recipe. We also provide a preview of our model architecture and base model - ZAYA1 (760M active, 8.3B total parameters MoE) - which will be further improved upon in forthcoming papers. ZAYA1-base achieves performance comparable to leading base models such as Qwen3-4B and Gemma3-12B at its scale and larger, and outperforms models including Llama-3-8B and OLMoE across reasoning, mathematics, and coding benchmarks. Together, these results demonstrate that the AMD hardware, network, and software stack are mature and optimized enough for competitive large-scale pretraining.
PDF11December 1, 2025