DASH: Shampoo più veloce tramite precondizionamento a blocchi in batch e risolutori efficienti per radici inverse
DASH: Faster Shampoo via Batched Block Preconditioning and Efficient Inverse-Root Solvers
February 2, 2026
Autori: Ionut-Vlad Modoranu, Philip Zmushko, Erik Schultheis, Mher Safaryan, Dan Alistarh
cs.AI
Abstract
Shampoo è uno dei principali ottimizzatori approssimati del secondo ordine: una sua variante ha vinto la competizione MLCommons AlgoPerf ed è stato dimostrato che produce modelli con outlier di attivazione inferiori, più facili da comprimere. Tuttavia, l'applicazione di Shampoo comporta attualmente un significativo rallentamento computazionale, a causa delle sue operazioni interne costose. In questo articolo, compiamo un passo significativo per affrontare questa limitazione proponendo \method (per Distributed Accelerated SHampoo), un'implementazione più veloce di Distributed Shampoo basata su due nuove tecniche principali: in primo luogo, mostriamo che i blocchi del precondizionatore possono essere impilati in tensori 3D per migliorare significativamente l'utilizzo della GPU; in secondo luogo, introduciamo l'iterazione Newton-DB e le approssimazioni polinomiali di Chebyshev come approcci innovativi e più rapidi per calcolare le radici inverse di matrice richieste da Shampoo. Oltre a questi contributi algoritmici, forniamo una prima analisi approfondita di come il ridimensionamento delle matrici influisca criticamente sulla convergenza di Shampoo. Sul piano pratico, la nostra implementazione ottimizzata per GPU raggiunge fino a 4,83 volte passi di ottimizzazione più veloci rispetto al ben ottimizzato Distributed Shampoo, mentre Newton-DB ottiene la più bassa perplexità di validazione per iterazione tra tutti i metodi testati. Il nostro codice è disponibile all'indirizzo https://github.com/IST-DASLab/DASH.
English
Shampoo is one of the leading approximate second-order optimizers: a variant of it has won the MLCommons AlgoPerf competition, and it has been shown to produce models with lower activation outliers that are easier to compress. Yet, applying Shampoo currently comes at the cost of significant computational slowdown, due to its expensive internal operations. In this paper, we take a significant step to address this shortcoming by proposing \method (for Distributed Accelerated SHampoo), a faster implementation of Distributed Shampoo based on two main new techniques: First, we show that preconditioner blocks can be stacked into 3D tensors to significantly improve GPU utilization; second, we introduce the Newton-DB iteration and the Chebyshev polynomial approximations as novel and faster approaches for computing the inverse matrix roots required by Shampoo. Along with these algorithmic contributions, we provide a first in-depth analysis of how matrix scaling critically affects Shampoo convergence. On the practical side, our GPU-aware implementation achieves up to 4.83times faster optimizer steps compared to the well-optimized Distributed Shampoo, while Newton-DB attains the lowest validation perplexity per iteration among all tested methods. Our code is available at https://github.com/IST-DASLab/DASH.