Canzona: Uma Estrutura Unificada, Assíncrona e com Balanceamento de Carga para Otimizadores Distribuídos Baseados em Matriz

Resumo

A escalabilidade dos Modelos de Linguagem de Grande Porte (LLMs) impulsiona o interesse em otimizadores baseados em matrizes (por exemplo, Shampoo, Muon, SOAP) devido à sua eficiência de convergência; no entanto, a sua exigência de atualizações holísticas entra em conflito com a fragmentação de tensores em estruturas distribuídas como a Megatron. As soluções existentes são subótimas: as abordagens síncronas sofrem com redundância computacional, enquanto o particionamento por camadas não consegue reconciliar este conflito sem violar as restrições geométricas dos primitivos de comunicação eficientes. Para preencher esta lacuna, propomos a Canzona, uma estrutura Unificada, Assíncrona e com Balanceamento de Carga que desacopla a atribuição lógica do otimizador da distribuição física dos parâmetros. Para o Paralelismo de Dados, introduzimos uma estratégia de Particionamento Estático Alpha-Balanceado que respeita a atomicidade enquanto neutraliza o desequilíbrio de carga. Para o Paralelismo de Tensores, concebemos um pipeline de Computação Assíncrona que utiliza o Agendamento por Micro-Grupos para agrupar atualizações fragmentadas e ocultar a sobrecarga de reconstrução. Avaliações abrangentes na família de modelos Qwen3 (até 32 mil milhões de parâmetros) em 256 GPUs demonstram que a nossa abordagem preserva a eficiência das arquiteturas paralelas estabelecidas, alcançando uma aceleração de 1,57x no tempo de iteração de ponta a ponta e reduzindo a latência do passo do otimizador em 5,8x em comparação com a linha de base.

English

The scaling of Large Language Models (LLMs) drives interest in matrix-based optimizers (e.g., Shampoo, Muon, SOAP) for their convergence efficiency; yet their requirement for holistic updates conflicts with the tensor fragmentation in distributed frameworks like Megatron. Existing solutions are suboptimal: synchronous approaches suffer from computational redundancy, while layer-wise partitioning fails to reconcile this conflict without violating the geometric constraints of efficient communication primitives. To bridge this gap, we propose Canzona, a Unified, Asynchronous, and Load-Balanced framework that decouples logical optimizer assignment from physical parameter distribution. For Data Parallelism, we introduce an alpha-Balanced Static Partitioning strategy that respects atomicity while neutralizing the load imbalance. For Tensor Parallelism, we design an Asynchronous Compute pipeline utilizing Micro-Group Scheduling to batch fragmented updates and hide reconstruction overhead. Extensive evaluations on the Qwen3 model family (up to 32B parameters) on 256 GPUs demonstrate that our approach preserves the efficiency of established parallel architectures, achieving a 1.57x speedup in end-to-end iteration time and reducing optimizer step latency by 5.8x compared to the baseline.

Canzona: Uma Estrutura Unificada, Assíncrona e com Balanceamento de Carga para Otimizadores Distribuídos Baseados em Matriz

Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based Optimizers

Resumo

Support