ChatPaper.aiChatPaper

AMDフルスタックプラットフォームにおける基盤モデルの学習:コンピューティング、ネットワーキング、システム設計

Training Foundation Models on a Full-Stack AMD Platform: Compute, Networking, and System Design

November 21, 2025
著者: Quentin Anthony, Yury Tokpanov, Skyler Szot, Srivatsan Rajagopal, Praneeth Medepalli, Rishi Iyer, Vasu Shyam, Anna Golubeva, Ansh Chaurasia, Xiao Yang, Tomas Figliolia, Robert Washbourne, Drew Thorstensen, Amartey Pearson, Zack Grossbart, Jason van Patten, Emad Barsoum, Zhenyu Gu, Yao Fu, Beren Millidge
cs.AI

要旨

AMDハードウェア上で初となる大規模なMixture-of-Experts(MoE)事前学習の実証研究について報告する。本実験では、Pollaraインターコネクトを搭載したMI300X GPUを活用し、システム設計とモデル設計の両面における実用的な知見を導出した。システム面では、クラスタとネットワーキングに関する包括的な特性評価を実施した。具体的には、Pollara上における主要な集団通信(all-reduce、reduce-scatter、all-gather、broadcast)のマイクロベンチマークを、様々なメッセージサイズとGPU数で計測した。我々の知る限り、この規模での測定は初めての試みである。さらに、モデル設計に資するため、MI300Xにおけるカーネルサイジングとメモリ帯域幅に関するマイクロベンチマークを提供する。モデリング面では、MI300Xを意識したAttentionおよびMLPブロックのトランスフォーマーサイジング規則を導入・適用し、学習スループットと推論レイテンシを同時に最適化するMoEの幅を理論的に示す。学習スタックについては、耐障害性やチェックポイント再構成など見過ごされがちなユーティリティも含め詳細に説明し、学習レシピに関する詳細な情報を提供する。また、今後の論文でさらに改良を加える予定のモデルアーキテクチャとベースモデル「ZAYA1(活性化パラメータ7億6000万、総パラメータ83億のMoE)」を紹介する。ZAYA1ベースは、同規模乃至より大規模なQwen3-4BやGemma3-12Bなどの主要ベースモデルに匹敵する性能を達成し、推論、数学、コーディングのベンチマークにおいてLlama-3-8BやOLMoEなどのモデルを上回った。これらの結果は、AMDのハードウェア、ネットワーク、ソフトウェアスタックが、競争力のある大規模事前学習を実施するのに十分に成熟かつ最適化されていることを実証している。
English
We report on the first large-scale mixture-of-experts (MoE) pretraining study on pure AMD hardware, utilizing both MI300X GPUs with Pollara interconnect. We distill practical guidance for both systems and model design. On the systems side, we deliver a comprehensive cluster and networking characterization: microbenchmarks for all core collectives (all-reduce, reduce-scatter, all-gather, broadcast) across message sizes and GPU counts on Pollara. To our knowledge, this is the first at this scale. We further provide MI300X microbenchmarks on kernel sizing and memory bandwidth to inform model design. On the modeling side, we introduce and apply MI300X-aware transformer sizing rules for attention and MLP blocks and justify MoE widths that jointly optimize training throughput and inference latency. We describe our training stack in depth, including often-ignored utilities such as fault-tolerance and checkpoint-reshaping, as well as detailed information on our training recipe. We also provide a preview of our model architecture and base model - ZAYA1 (760M active, 8.3B total parameters MoE) - which will be further improved upon in forthcoming papers. ZAYA1-base achieves performance comparable to leading base models such as Qwen3-4B and Gemma3-12B at its scale and larger, and outperforms models including Llama-3-8B and OLMoE across reasoning, mathematics, and coding benchmarks. Together, these results demonstrate that the AMD hardware, network, and software stack are mature and optimized enough for competitive large-scale pretraining.
PDF11December 1, 2025