풀스택 AMD 플랫폼에서 파운데이션 모델 학습하기: 컴퓨팅, 네트워킹 및 시스템 설계
Training Foundation Models on a Full-Stack AMD Platform: Compute, Networking, and System Design
November 21, 2025
저자: Quentin Anthony, Yury Tokpanov, Skyler Szot, Srivatsan Rajagopal, Praneeth Medepalli, Rishi Iyer, Vasu Shyam, Anna Golubeva, Ansh Chaurasia, Xiao Yang, Tomas Figliolia, Robert Washbourne, Drew Thorstensen, Amartey Pearson, Zack Grossbart, Jason van Patten, Emad Barsoum, Zhenyu Gu, Yao Fu, Beren Millidge
cs.AI
초록
순수 AMD 하드웨어상에서 진행된 최초의 대규모 전문가 혼합(MoE) 사전 학습 연구를 보고합니다. 본 연구는 Pollara 상호 연결을 갖춘 MI300X GPU를 모두 활용하였으며, 시스템 및 모델 설계를 위한 실용적인 지침을 도출하였습니다. 시스템 측면에서는 포괄적인 클러스터 및 네트워킹 특성 분석을 제공합니다. 즉, Pollara 상에서 다양한 메시지 크기와 GPU 수에 걸쳐 모든 핵심 집단 통신(All-Reduce, Reduce-Scatter, All-Gather, Broadcast)에 대한 마이크로 벤치마크를 수행했습니다. 우리가 아는 한, 이는 이러한 규모로는 최초입니다. 또한 모델 설계에 도움을 주기 위해 커널 크기 조정 및 메모리 대역폭에 대한 MI300X 마이크로 벤치마크를 추가로 제공합니다. 모델링 측면에서는 어텐션 및 MLP 블록에 대한 MI300X 인지 트랜스포머 크기 조정 규칙을 소개하고 적용하며, 학습 처리량과 추론 지연 시간을 함께 최적화하는 MoE 폭을 정당화합니다. 자주 간과되는 장애 허용성 및 체크포인트 재구성과 같은 유틸리티뿐만 아니라 학습 레시피에 대한 상세한 정보를 포함하여 학습 스택을 깊이 있게 설명합니다. 또한 향후 논문에서 더욱 개선될 모델 아키텍처 및 기본 모델인 ZAYA1(활성 매개변수 7억 6천만 개, 총 매개변수 83억 개 MoE)에 대한 미리보기를 제공합니다. ZAYA1-base는 동급 및 더 큰 규모의 Qwen3-4B, Gemma3-12B와 같은 주요 기본 모델에 필적하는 성능을 달성하며, 추론, 수학, 코딩 벤치마크에서 Llama-3-8B 및 OLMoE를 포함한 모델들을 능가합니다. 이러한 결과들은 AMD 하드웨어, 네트워크 및 소프트웨어 스택이 경쟁력 있는 대규모 사전 학습을 수행하기에 충분히 성숙하고 최적화되었음을 보여줍니다.
English
We report on the first large-scale mixture-of-experts (MoE) pretraining study on pure AMD hardware, utilizing both MI300X GPUs with Pollara interconnect. We distill practical guidance for both systems and model design. On the systems side, we deliver a comprehensive cluster and networking characterization: microbenchmarks for all core collectives (all-reduce, reduce-scatter, all-gather, broadcast) across message sizes and GPU counts on Pollara. To our knowledge, this is the first at this scale. We further provide MI300X microbenchmarks on kernel sizing and memory bandwidth to inform model design. On the modeling side, we introduce and apply MI300X-aware transformer sizing rules for attention and MLP blocks and justify MoE widths that jointly optimize training throughput and inference latency. We describe our training stack in depth, including often-ignored utilities such as fault-tolerance and checkpoint-reshaping, as well as detailed information on our training recipe. We also provide a preview of our model architecture and base model - ZAYA1 (760M active, 8.3B total parameters MoE) - which will be further improved upon in forthcoming papers. ZAYA1-base achieves performance comparable to leading base models such as Qwen3-4B and Gemma3-12B at its scale and larger, and outperforms models including Llama-3-8B and OLMoE across reasoning, mathematics, and coding benchmarks. Together, these results demonstrate that the AMD hardware, network, and software stack are mature and optimized enough for competitive large-scale pretraining.