Canzona: Ein einheitliches, asynchrones und lastverteiltes Framework für verteilte matrixbasierte Optimierer
Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based Optimizers
February 4, 2026
Autoren: Liangyu Wang, Siqi Zhang, Junjie Wang, Yiming Dong, Bo Zheng, Zihan Qiu, Shengkun Tang, Di Wang, Rui Men, Dayiheng Liu
cs.AI
Zusammenfassung
Die Skalierung großer Sprachmodelle (LLMs) treibt das Interesse an matrixbasierten Optimierern (z.B. Shampoo, Muon, SOAP) aufgrund ihrer Konvergenzeffizienz voran; doch ihr Erfordernis holistischer Aktualisierungen steht im Konflikt mit der Tensorfragmentierung in verteilten Frameworks wie Megatron. Bestehende Lösungen sind suboptimal: synchrone Ansätze leiden unter computationaler Redundanz, während schichtweise Partitionierung diesen Konflikt nicht lösen kann, ohne die geometrischen Constraints effizienter Kommunikationsprimitive zu verletzen. Um diese Lücke zu schließen, schlagen wir Canzona vor, ein vereinheitlichtes, asynchrones und lastausgeglichenes Framework, das die logische Optimierer-Zuordnung von der physischen Parameterverteilung entkoppelt. Für Data Parallelism führen wir eine alpha-ausgeglichene statische Partitionierungsstrategie ein, die Atomarität respektiert und Lastungleichgewichte neutralisiert. Für Tensor Parallelism entwerfen wir eine asynchrone Compute-Pipeline, die Micro-Group Scheduling nutzt, um fragmentierte Aktualisierungen zu batchen und Rekonstruktions-Overhead zu verbergen. Umfangreiche Evaluationen an der Qwen3-Modellfamilie (bis zu 32B Parametern) auf 256 GPUs demonstrieren, dass unser Ansatz die Effizienz etablierter Parallelarchitekturen erhält, eine 1,57-fache Beschleunigung der End-to-End-Iterationszeit erreicht und die Latenz des Optimiererschritts im Vergleich zur Baseline um das 5,8-Fache reduziert.
English
The scaling of Large Language Models (LLMs) drives interest in matrix-based optimizers (e.g., Shampoo, Muon, SOAP) for their convergence efficiency; yet their requirement for holistic updates conflicts with the tensor fragmentation in distributed frameworks like Megatron. Existing solutions are suboptimal: synchronous approaches suffer from computational redundancy, while layer-wise partitioning fails to reconcile this conflict without violating the geometric constraints of efficient communication primitives. To bridge this gap, we propose Canzona, a Unified, Asynchronous, and Load-Balanced framework that decouples logical optimizer assignment from physical parameter distribution. For Data Parallelism, we introduce an alpha-Balanced Static Partitioning strategy that respects atomicity while neutralizing the load imbalance. For Tensor Parallelism, we design an Asynchronous Compute pipeline utilizing Micro-Group Scheduling to batch fragmented updates and hide reconstruction overhead. Extensive evaluations on the Qwen3 model family (up to 32B parameters) on 256 GPUs demonstrate that our approach preserves the efficiency of established parallel architectures, achieving a 1.57x speedup in end-to-end iteration time and reducing optimizer step latency by 5.8x compared to the baseline.