Entrenamiento de Modelos Fundacionales en una Plataforma AMD de Pila Completa: Computación, Redes y Diseño del Sistema
Training Foundation Models on a Full-Stack AMD Platform: Compute, Networking, and System Design
November 21, 2025
Autores: Quentin Anthony, Yury Tokpanov, Skyler Szot, Srivatsan Rajagopal, Praneeth Medepalli, Rishi Iyer, Vasu Shyam, Anna Golubeva, Ansh Chaurasia, Xiao Yang, Tomas Figliolia, Robert Washbourne, Drew Thorstensen, Amartey Pearson, Zack Grossbart, Jason van Patten, Emad Barsoum, Zhenyu Gu, Yao Fu, Beren Millidge
cs.AI
Resumen
Presentamos el primer estudio a gran escala de preentrenamiento con mezcla de expertos (MoE) realizado íntegramente en hardware AMD, utilizando GPUs MI300X con interconexión Pollara. Extraemos recomendaciones prácticas tanto para el diseño de sistemas como de modelos. En el ámbito de los sistemas, ofrecemos una caracterización exhaustiva del clúster y de la red: microbenchmarks para todos los colectivos principales (all-reduce, reduce-scatter, all-gather, broadcast) a través de distintos tamaños de mensaje y números de GPU en Pollara. Hasta donde sabemos, es el primer estudio de esta escala. Además, proporcionamos microbenchmarks de la MI300X sobre dimensionamiento de kernels y ancho de banda de memoria para fundamentar el diseño de modelos. En el aspecto del modelado, introducimos y aplicamos reglas de dimensionamiento de transformers optimizadas para MI300X para los bloques de atención y MLP, y justificamos anchos de MoE que optimizan conjuntamente el rendimiento del entrenamiento y la latencia de inferencia. Describimos en profundidad nuestra pila de entrenamiento, incluyendo utilidades frecuentemente ignoradas como la tolerancia a fallos y la remodelación de checkpoints, así como información detallada sobre nuestra receta de entrenamiento. También ofrecemos una vista previa de nuestra arquitectura de modelo y del modelo base - ZAYA1 (760M parámetros activos, 8.3B parámetros totales, MoE) - que se seguirá mejorando en publicaciones futuras. ZAYA1-base logra un rendimiento comparable al de modelos base líderes como Qwen3-4B y Gemma3-12B en su escala y superior, y supera a modelos como Llama-3-8B y OLMoE en benchmarks de razonamiento, matemáticas y codificación. En conjunto, estos resultados demuestran que el hardware AMD, la red y la pila de software están lo suficientemente maduros y optimizados para realizar preentrenamientos a gran escala competitivos.
English
We report on the first large-scale mixture-of-experts (MoE) pretraining study on pure AMD hardware, utilizing both MI300X GPUs with Pollara interconnect. We distill practical guidance for both systems and model design. On the systems side, we deliver a comprehensive cluster and networking characterization: microbenchmarks for all core collectives (all-reduce, reduce-scatter, all-gather, broadcast) across message sizes and GPU counts on Pollara. To our knowledge, this is the first at this scale. We further provide MI300X microbenchmarks on kernel sizing and memory bandwidth to inform model design. On the modeling side, we introduce and apply MI300X-aware transformer sizing rules for attention and MLP blocks and justify MoE widths that jointly optimize training throughput and inference latency. We describe our training stack in depth, including often-ignored utilities such as fault-tolerance and checkpoint-reshaping, as well as detailed information on our training recipe. We also provide a preview of our model architecture and base model - ZAYA1 (760M active, 8.3B total parameters MoE) - which will be further improved upon in forthcoming papers. ZAYA1-base achieves performance comparable to leading base models such as Qwen3-4B and Gemma3-12B at its scale and larger, and outperforms models including Llama-3-8B and OLMoE across reasoning, mathematics, and coding benchmarks. Together, these results demonstrate that the AMD hardware, network, and software stack are mature and optimized enough for competitive large-scale pretraining.