ChatPaper.aiChatPaper

Training von Foundation Models auf einer vollständigen AMD-Plattform: Rechenleistung, Netzwerktechnik und Systemdesign

Training Foundation Models on a Full-Stack AMD Platform: Compute, Networking, and System Design

November 21, 2025
papers.authors: Quentin Anthony, Yury Tokpanov, Skyler Szot, Srivatsan Rajagopal, Praneeth Medepalli, Rishi Iyer, Vasu Shyam, Anna Golubeva, Ansh Chaurasia, Xiao Yang, Tomas Figliolia, Robert Washbourne, Drew Thorstensen, Amartey Pearson, Zack Grossbart, Jason van Patten, Emad Barsoum, Zhenyu Gu, Yao Fu, Beren Millidge
cs.AI

papers.abstract

Wir berichten über die erste groß angelegte Pretraining-Studie mit Mixture-of-Experts (MoE) auf reiner AMD-Hardware unter Nutzung von MI300X-GPUs mit Pollara-Interconnect. Wir leiten praktische Leitlinien für System- und Modelldesign ab. Auf Systemseite liefern wir eine umfassende Charakterisierung des Clusters und Netzwerks: Microbenchmarks für alle zentralen Kollektivoperationen (All-Reduce, Reduce-Scatter, All-Gather, Broadcast) über Nachrichtengrößen und GPU-Anzahlen auf Pollara hinweg. Unseres Wissens ist dies die erste Studie in diesem Umfang. Weiterhin stellen wir MI300X-Microbenchmarks zur Kernel-Dimensionierung und Speicherbandbreite bereit, um das Modelldesign zu informieren. Auf Modellseite führen wir MI300X-spezifische Transformerdimensionierungsregeln für Attention- und MLP-Blöcke ein und wenden diese an, und wir begründen MoE-Breiten, die Trainingsdurchsatz und Inferenzlatenz gemeinsam optimieren. Wir beschreiben unseren Trainingsstack detailliert, einschließlich oft vernachlässigter Utility-Funktionen wie Fehlertoleranz und Checkpoint-Reshaping, sowie detaillierte Informationen zu unserem Trainingsrezept. Ebenfalls geben wir einen Einblick in unsere Modellarchitektur und das Basismodell – ZAYA1 (760M aktive, 8.3B gesamte MoE-Parameter) – das in nachfolgenden Arbeiten weiter verbessert wird. ZAYA1-base erreicht eine Leistung, die mit führenden Basismodellen wie Qwen3-4B und Gemma3-12B in seiner und größeren Skalen vergleichbar ist, und übertrifft Modelle wie Llama-3-8B und OLMoE in Reasoning-, Mathematik- und Coding-Benchmarks. Zusammengenommen demonstrieren diese Ergebnisse, dass die AMD-Hardware, das Netzwerk und der Software-Stack ausgereift und optimiert genug für wettbewerbsfähiges großskaliges Pretraining sind.
English
We report on the first large-scale mixture-of-experts (MoE) pretraining study on pure AMD hardware, utilizing both MI300X GPUs with Pollara interconnect. We distill practical guidance for both systems and model design. On the systems side, we deliver a comprehensive cluster and networking characterization: microbenchmarks for all core collectives (all-reduce, reduce-scatter, all-gather, broadcast) across message sizes and GPU counts on Pollara. To our knowledge, this is the first at this scale. We further provide MI300X microbenchmarks on kernel sizing and memory bandwidth to inform model design. On the modeling side, we introduce and apply MI300X-aware transformer sizing rules for attention and MLP blocks and justify MoE widths that jointly optimize training throughput and inference latency. We describe our training stack in depth, including often-ignored utilities such as fault-tolerance and checkpoint-reshaping, as well as detailed information on our training recipe. We also provide a preview of our model architecture and base model - ZAYA1 (760M active, 8.3B total parameters MoE) - which will be further improved upon in forthcoming papers. ZAYA1-base achieves performance comparable to leading base models such as Qwen3-4B and Gemma3-12B at its scale and larger, and outperforms models including Llama-3-8B and OLMoE across reasoning, mathematics, and coding benchmarks. Together, these results demonstrate that the AMD hardware, network, and software stack are mature and optimized enough for competitive large-scale pretraining.
PDF11December 1, 2025