Канцона: Унифицированная, асинхронная и балансирующая нагрузку платформа для распределенных матричных оптимизаторов
Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based Optimizers
February 4, 2026
Авторы: Liangyu Wang, Siqi Zhang, Junjie Wang, Yiming Dong, Bo Zheng, Zihan Qiu, Shengkun Tang, Di Wang, Rui Men, Dayiheng Liu
cs.AI
Аннотация
Масштабирование больших языковых моделей (LLM) стимулирует интерес к матричным оптимизаторам (таким как Shampoo, Muon, SOAP) благодаря их эффективной сходимости; однако их требование к целостному обновлению параметров вступает в противоречие с тензорной фрагментацией в распределенных фреймворках, подобных Megatron. Существующие решения неоптимальны: синхронные подходы страдают от вычислительной избыточности, а послойное разделение не позволяет разрешить это противоречие без нарушения геометрических ограничений эффективных коммуникационных примитивов. Для преодоления этого разрыва мы предлагаем Canzona — унифицированный, асинхронный и сбалансированный по нагрузке фреймворк, который разделяет логическое назначение оптимизатора и физическое распределение параметров. Для параллелизма данных мы представляем стратегию альфа-сбалансированного статического разделения, которая соблюдает атомарность, одновременно нивелируя дисбаланс нагрузки. Для тензорного параллелизма мы разрабатываем асинхронный вычислительный конвейер, использующий микрогрупповое планирование для пакетной обработки фрагментированных обновлений и скрытия накладных расходов на реконструкцию. Обширные оценки на семействе моделей Qwen3 (до 32 миллиардов параметров) на 256 графических процессорах демонстрируют, что наш подход сохраняет эффективность established параллельных архитектур, обеспечивая ускорение сквозного времени итерации в 1.57 раза и снижение задержки шага оптимизатора в 5.8 раз по сравнению с базовым уровнем.
English
The scaling of Large Language Models (LLMs) drives interest in matrix-based optimizers (e.g., Shampoo, Muon, SOAP) for their convergence efficiency; yet their requirement for holistic updates conflicts with the tensor fragmentation in distributed frameworks like Megatron. Existing solutions are suboptimal: synchronous approaches suffer from computational redundancy, while layer-wise partitioning fails to reconcile this conflict without violating the geometric constraints of efficient communication primitives. To bridge this gap, we propose Canzona, a Unified, Asynchronous, and Load-Balanced framework that decouples logical optimizer assignment from physical parameter distribution. For Data Parallelism, we introduce an alpha-Balanced Static Partitioning strategy that respects atomicity while neutralizing the load imbalance. For Tensor Parallelism, we design an Asynchronous Compute pipeline utilizing Micro-Group Scheduling to batch fragmented updates and hide reconstruction overhead. Extensive evaluations on the Qwen3 model family (up to 32B parameters) on 256 GPUs demonstrate that our approach preserves the efficiency of established parallel architectures, achieving a 1.57x speedup in end-to-end iteration time and reducing optimizer step latency by 5.8x compared to the baseline.