Canzona: 分散型行列ベース最適化手法のための統合的・非同期・負荷分散フレームワーク
Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based Optimizers
February 4, 2026
著者: Liangyu Wang, Siqi Zhang, Junjie Wang, Yiming Dong, Bo Zheng, Zihan Qiu, Shengkun Tang, Di Wang, Rui Men, Dayiheng Liu
cs.AI
要旨
大規模言語モデル(LLM)のスケーリングに伴い、収束効率の良さから行列ベースの最適化手法(Shampoo、Muon、SOAPなど)への関心が高まっている。しかし、これらの手法はパラメータ全体の更新を必要とするため、Megatronのような分散フレームワークにおけるテンソル分散配置と矛盾する。既存の解決策は最適とは言えず、同期方式では計算の冗長性が問題となり、層単位の分割方式は、効率的な通信プリミティブの幾何学的制約を損なうことなくこの矛盾を解消できない。この課題を解決するため、本研究では論理的な最適化器の割り当てと物理的なパラメータ配置を分離した、統一された非同期で負荷均衡なフレームワーク「Canzona」を提案する。データ並列処理には、原子性を保持しつつ負荷不均衡を解消するα均衡静的分割戦略を導入する。テンソル並列処理には、細分化された更新をバッチ処理し再構築のオーバーヘッドを隠蔽するマイクログループスケジューリングを活用した非同期計算パイプラインを設計する。256GPU環境におけるQwen3モデルファミリー(最大32Bパラメータ)での大規模評価により、本手法が確立された並列アーキテクチャの効率を維持しつつ、エンドツーエンドの反復時間を1.57倍高速化し、最適化ステップのレイテンシをベースライン比5.8倍削減できることを実証した。
English
The scaling of Large Language Models (LLMs) drives interest in matrix-based optimizers (e.g., Shampoo, Muon, SOAP) for their convergence efficiency; yet their requirement for holistic updates conflicts with the tensor fragmentation in distributed frameworks like Megatron. Existing solutions are suboptimal: synchronous approaches suffer from computational redundancy, while layer-wise partitioning fails to reconcile this conflict without violating the geometric constraints of efficient communication primitives. To bridge this gap, we propose Canzona, a Unified, Asynchronous, and Load-Balanced framework that decouples logical optimizer assignment from physical parameter distribution. For Data Parallelism, we introduce an alpha-Balanced Static Partitioning strategy that respects atomicity while neutralizing the load imbalance. For Tensor Parallelism, we design an Asynchronous Compute pipeline utilizing Micro-Group Scheduling to batch fragmented updates and hide reconstruction overhead. Extensive evaluations on the Qwen3 model family (up to 32B parameters) on 256 GPUs demonstrate that our approach preserves the efficiency of established parallel architectures, achieving a 1.57x speedup in end-to-end iteration time and reducing optimizer step latency by 5.8x compared to the baseline.