ChatPaper.aiChatPaper

Canzona: Een Uniform, Asynchroon en Gelijkmatig Belast Raamwerk voor Gedistribueerde Matrixgebaseerde Optimalisatoren

Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based Optimizers

February 4, 2026
Auteurs: Liangyu Wang, Siqi Zhang, Junjie Wang, Yiming Dong, Bo Zheng, Zihan Qiu, Shengkun Tang, Di Wang, Rui Men, Dayiheng Liu
cs.AI

Samenvatting

De schaalvergroting van Large Language Models (LLM's) wekt belangstelling voor matrixgebaseerde optimalisatiemethoden (zoals Shampoo, Muon, SOAP) vanwege hun convergentie-efficiëntie; hun vereiste voor holistische updates botst echter met de tensorfragmentatie in gedistribueerde raamwerken zoals Megatron. Bestaande oplossingen zijn suboptimaal: synchrone benaderingen leiden tot computationele redundantie, terwijl laagsgewijze partitionering dit conflict niet kan oplossen zonder de geometrische beperkingen van efficiënte communicatieprimitieven te schenden. Om deze kloof te overbruggen, stellen we Canzona voor, een uniform, asynchroon en belasting-evenwichtig raamwerk dat de logische toewijzing van de optimalisatiemethode ontkoppelt van de fysieke parameterdistributie. Voor Data Parallelisme introduceren we een alfa-Gebalanceerde Statische Partitioneringsstrategie die atomiciteit respecteert terwijl de belastingsonbalans wordt geneutraliseerd. Voor Tensor Parallelisme ontwerpen we een Asynchrone Verwerkingspijplijn die gebruikmaakt van Micro-Groep Planning om gefragmenteerde updates te batchverwerken en de reconstructie-overhead te verbergen. Uitgebreide evaluaties op de Qwen3-modelfamilie (tot 32B parameters) op 256 GPU's tonen aan dat onze aanpak de efficiëntie van gevestigde parallelle architecturen behoudt, met een 1,57x versnelling in end-to-end iteratietijd en een 5,8x reductie in latentie van de optimalisatiestap vergeleken met de baseline.
English
The scaling of Large Language Models (LLMs) drives interest in matrix-based optimizers (e.g., Shampoo, Muon, SOAP) for their convergence efficiency; yet their requirement for holistic updates conflicts with the tensor fragmentation in distributed frameworks like Megatron. Existing solutions are suboptimal: synchronous approaches suffer from computational redundancy, while layer-wise partitioning fails to reconcile this conflict without violating the geometric constraints of efficient communication primitives. To bridge this gap, we propose Canzona, a Unified, Asynchronous, and Load-Balanced framework that decouples logical optimizer assignment from physical parameter distribution. For Data Parallelism, we introduce an alpha-Balanced Static Partitioning strategy that respects atomicity while neutralizing the load imbalance. For Tensor Parallelism, we design an Asynchronous Compute pipeline utilizing Micro-Group Scheduling to batch fragmented updates and hide reconstruction overhead. Extensive evaluations on the Qwen3 model family (up to 32B parameters) on 256 GPUs demonstrate that our approach preserves the efficiency of established parallel architectures, achieving a 1.57x speedup in end-to-end iteration time and reducing optimizer step latency by 5.8x compared to the baseline.
PDF183March 16, 2026