ChatPaper.aiChatPaper

DASH: Shampoo Mais Rápido via Pré-Condicionamento de Blocos em Lote e Solucionadores Eficientes de Raiz Inversa

DASH: Faster Shampoo via Batched Block Preconditioning and Efficient Inverse-Root Solvers

February 2, 2026
Autores: Ionut-Vlad Modoranu, Philip Zmushko, Erik Schultheis, Mher Safaryan, Dan Alistarh
cs.AI

Resumo

O Shampoo é um dos principais otimizadores aproximados de segunda ordem: uma variante dele venceu a competição MLCommons AlgoPerf e demonstrou produzir modelos com menos outliers de ativação, que são mais fáceis de comprimir. No entanto, a aplicação do Shampoo atualmente acarreta um custo significativo de lentidão computacional, devido às suas operações internas dispendiosas. Neste artigo, damos um passo importante para resolver essa deficiência propondo o \method (para Distributed Accelerated SHampoo), uma implementação mais rápida do Shampoo Distribuído baseada em duas novas técnicas principais: Primeiro, mostramos que os blocos do pré-condicionador podem ser empilhados em tensores 3D para melhorar significativamente a utilização da GPU; segundo, introduzimos a iteração Newton-DB e as aproximações por polinômios de Chebyshev como abordagens novas e mais rápidas para calcular as raízes quadradas inversas da matriz exigidas pelo Shampoo. Juntamente com essas contribuições algorítmicas, fornecemos a primeira análise aprofundada de como o dimensionamento de matrizes afeta criticamente a convergência do Shampoo. No aspecto prático, nossa implementação consciente da GPU alcança etapas de otimização até 4,83 vezes mais rápidas em comparação com o bem-otimizado Shampoo Distribuído, enquanto o Newton-DB atinge a menor perplexidade de validação por iteração entre todos os métodos testados. Nosso código está disponível em https://github.com/IST-DASLab/DASH.
English
Shampoo is one of the leading approximate second-order optimizers: a variant of it has won the MLCommons AlgoPerf competition, and it has been shown to produce models with lower activation outliers that are easier to compress. Yet, applying Shampoo currently comes at the cost of significant computational slowdown, due to its expensive internal operations. In this paper, we take a significant step to address this shortcoming by proposing \method (for Distributed Accelerated SHampoo), a faster implementation of Distributed Shampoo based on two main new techniques: First, we show that preconditioner blocks can be stacked into 3D tensors to significantly improve GPU utilization; second, we introduce the Newton-DB iteration and the Chebyshev polynomial approximations as novel and faster approaches for computing the inverse matrix roots required by Shampoo. Along with these algorithmic contributions, we provide a first in-depth analysis of how matrix scaling critically affects Shampoo convergence. On the practical side, our GPU-aware implementation achieves up to 4.83times faster optimizer steps compared to the well-optimized Distributed Shampoo, while Newton-DB attains the lowest validation perplexity per iteration among all tested methods. Our code is available at https://github.com/IST-DASLab/DASH.
PDF32February 7, 2026