ChatPaper.aiChatPaper

Entraînement de modèles de fondation sur une plateforme AMD full-stack : Calcul, réseau et conception système

Training Foundation Models on a Full-Stack AMD Platform: Compute, Networking, and System Design

November 21, 2025
papers.authors: Quentin Anthony, Yury Tokpanov, Skyler Szot, Srivatsan Rajagopal, Praneeth Medepalli, Rishi Iyer, Vasu Shyam, Anna Golubeva, Ansh Chaurasia, Xiao Yang, Tomas Figliolia, Robert Washbourne, Drew Thorstensen, Amartey Pearson, Zack Grossbart, Jason van Patten, Emad Barsoum, Zhenyu Gu, Yao Fu, Beren Millidge
cs.AI

papers.abstract

Nous présentons la première étude de pré-entraînement à grande échelle de modèles Mixture-of-Experts (MoE) sur du matériel AMD pur, en utilisant des GPU MI300X avec l'interconnexion Pollara. Nous en tirons des recommandations pratiques pour la conception des systèmes et des modèles. Sur le plan des systèmes, nous fournissons une caractérisation complète du cluster et du réseau : des micro-benchmarks pour tous les collectifs de base (all-reduce, reduce-scatter, all-gather, broadcast) pour différentes tailles de messages et nombres de GPU sur Pollara. À notre connaissance, c'est une première à cette échelle. Nous fournissons également des micro-benchmarks MI300X sur le dimensionnement des kernels et la bande passante mémoire pour éclairer la conception des modèles. Sur le plan de la modélisation, nous introduisons et appliquons des règles de dimensionnement de transformers adaptées au MI300X pour les blocs d'attention et MLP, et justifions des largeurs de MoE qui optimisent conjointement le débit d'entraînement et la latence d'inférence. Nous décrivons en détail notre stack d'entraînement, incluant des utilitaires souvent négligés comme la tolérance aux pannes et le remodelage des points de contrôle, ainsi que des informations détaillées sur notre recette d'entraînement. Nous fournissons également un aperçu de notre architecture de modèle et du modèle de base - ZAYA1 (760M paramètres actifs, 8,3B paramètres totaux en MoE) - qui sera amélioré dans de prochains articles. ZAYA1-base atteint des performances comparables aux principaux modèles de base tels que Qwen3-4B et Gemma3-12B à son échelle et au-delà, et surpasse des modèles incluant Llama-3-8B et OLMoE sur des benchmarks de raisonnement, de mathématiques et de codage. Ensemble, ces résultats démontrent que le matériel AMD, le réseau et la pile logicielle sont suffisamment matures et optimisés pour un pré-entraînement à grande échelle compétitif.
English
We report on the first large-scale mixture-of-experts (MoE) pretraining study on pure AMD hardware, utilizing both MI300X GPUs with Pollara interconnect. We distill practical guidance for both systems and model design. On the systems side, we deliver a comprehensive cluster and networking characterization: microbenchmarks for all core collectives (all-reduce, reduce-scatter, all-gather, broadcast) across message sizes and GPU counts on Pollara. To our knowledge, this is the first at this scale. We further provide MI300X microbenchmarks on kernel sizing and memory bandwidth to inform model design. On the modeling side, we introduce and apply MI300X-aware transformer sizing rules for attention and MLP blocks and justify MoE widths that jointly optimize training throughput and inference latency. We describe our training stack in depth, including often-ignored utilities such as fault-tolerance and checkpoint-reshaping, as well as detailed information on our training recipe. We also provide a preview of our model architecture and base model - ZAYA1 (760M active, 8.3B total parameters MoE) - which will be further improved upon in forthcoming papers. ZAYA1-base achieves performance comparable to leading base models such as Qwen3-4B and Gemma3-12B at its scale and larger, and outperforms models including Llama-3-8B and OLMoE across reasoning, mathematics, and coding benchmarks. Together, these results demonstrate that the AMD hardware, network, and software stack are mature and optimized enough for competitive large-scale pretraining.
PDF11December 1, 2025