ChatPaper.aiChatPaper

Opleiden van Foundation Models op een Volledig AMD-Platform: Rekenkracht, Netwerken en Systeemontwerp

Training Foundation Models on a Full-Stack AMD Platform: Compute, Networking, and System Design

November 21, 2025
Auteurs: Quentin Anthony, Yury Tokpanov, Skyler Szot, Srivatsan Rajagopal, Praneeth Medepalli, Rishi Iyer, Vasu Shyam, Anna Golubeva, Ansh Chaurasia, Xiao Yang, Tomas Figliolia, Robert Washbourne, Drew Thorstensen, Amartey Pearson, Zack Grossbart, Jason van Patten, Emad Barsoum, Zhenyu Gu, Yao Fu, Beren Millidge
cs.AI

Samenvatting

Wij presenteren de eerste grootschalige mixture-of-experts (MoE) pre-trainingsstudie op pure AMD-hardware, waarbij gebruik wordt gemaakt van MI300X GPU's met Pollara-interconnect. We destilleren praktische richtlijnen voor zowel systeem- als modelontwerp. Op systeemgebied bieden we een uitgebreide karakterisering van het cluster en de netwerkinfrastructuur: microbenchmarks voor alle kerncollectieven (all-reduce, reduce-scatter, all-gather, broadcast) voor verschillende berichtgroottes en aantallen GPU's op Pollara. Voor zover ons bekend is dit de eerste studie op deze schaal. Verder presenteren we MI300X-microbenchmarks voor kernelgroottes en geheugenbandbreedte om modelontwerp te informeren. Op modelgebied introduceren en passen we MI300X-specifieke transformer-grootteregels toe voor attention- en MLP-blokken en onderbouwen we MoE-breedtes die gezamenlijk de trainingsdoorvoer en inferentielatentie optimaliseren. We beschrijven onze trainingsstack in detail, inclusief vaak veronachtzaamde utility-functies zoals fouttolerantie en checkpoint-hervorming, evenals gedetailleerde informatie over ons trainingsrecept. Tevens geven we een voorproefje van onze modelarchitectuur en basismodel - ZAYA1 (760M actieve, 8.3B totale parameters MoE) - die in komende publicaties verder verbeterd zal worden. ZAYA1-base bereikt prestaties vergelijkbaar met toonaangevende basismodellen zoals Qwen3-4B en Gemma3-12B binnen en boven zijn schaal, en overtreft modellen zoals Llama-3-8B en OLMoE op reasoning-, wiskunde- en coding-benchmarks. Gezamenlijk tonen deze resultaten aan dat de AMD-hardware, het netwerk en de softwarestack voldoende gerijpt en geoptimaliseerd zijn voor competitieve grootschalige pretraining.
English
We report on the first large-scale mixture-of-experts (MoE) pretraining study on pure AMD hardware, utilizing both MI300X GPUs with Pollara interconnect. We distill practical guidance for both systems and model design. On the systems side, we deliver a comprehensive cluster and networking characterization: microbenchmarks for all core collectives (all-reduce, reduce-scatter, all-gather, broadcast) across message sizes and GPU counts on Pollara. To our knowledge, this is the first at this scale. We further provide MI300X microbenchmarks on kernel sizing and memory bandwidth to inform model design. On the modeling side, we introduce and apply MI300X-aware transformer sizing rules for attention and MLP blocks and justify MoE widths that jointly optimize training throughput and inference latency. We describe our training stack in depth, including often-ignored utilities such as fault-tolerance and checkpoint-reshaping, as well as detailed information on our training recipe. We also provide a preview of our model architecture and base model - ZAYA1 (760M active, 8.3B total parameters MoE) - which will be further improved upon in forthcoming papers. ZAYA1-base achieves performance comparable to leading base models such as Qwen3-4B and Gemma3-12B at its scale and larger, and outperforms models including Llama-3-8B and OLMoE across reasoning, mathematics, and coding benchmarks. Together, these results demonstrate that the AMD hardware, network, and software stack are mature and optimized enough for competitive large-scale pretraining.
PDF11December 1, 2025