DASH: Snellere Shampoo via Gebatchte Blokvoorconditionering en Efficiënte Inverse-Wortel Oplossers
DASH: Faster Shampoo via Batched Block Preconditioning and Efficient Inverse-Root Solvers
February 2, 2026
Auteurs: Ionut-Vlad Modoranu, Philip Zmushko, Erik Schultheis, Mher Safaryan, Dan Alistarh
cs.AI
Samenvatting
Shampoo is een van de toonaangevende benaderende tweede-orde-optimalisatiemethoden: een variant ervan heeft de MLCommons AlgoPerf-wedstrijd gewonnen, en het is aangetoond dat het modellen oplevert met minder uitschieters in de activeringen die gemakkelijker te comprimeren zijn. Toch gaat het gebruik van Shampoo momenteel gepaard met een aanzienlijke vertraging in de rekentijd, vanwege de kostbare interne bewerkingen. In dit artikel zetten we een significante stap om dit nadeel aan te pakken door \method (voor Distributed Accelerated SHampoo) voor te stellen, een snellere implementatie van Distributed Shampoo gebaseerd op twee belangrijke nieuwe technieken: Ten eerste tonen we aan dat preconditioner-blokken kunnen worden gestapeld in 3D-tensors om het GPU-gebruik aanzienlijk te verbeteren; ten tweede introduceren we de Newton-DB-iteratie en de Chebyshev-polynoombenaderingen als nieuwe en snellere methoden voor het berekenen van de inverse matrixwortels die Shampoo vereist. Naast deze algoritmische bijdragen, bieden we een eerste diepgaande analyse van hoe matrixschaling een kritieke invloed heeft op de convergentie van Shampoo. Op praktisch vlak behaalt onze GPU-bewuste implementatie tot 4,83 keer snellere optimalisatiestappen vergeleken met de goed geoptimaliseerde Distributed Shampoo, terwijl Newton-DB de laagste validatieperplexiteit per iteratie bereikt van alle geteste methoden. Onze code is beschikbaar op https://github.com/IST-DASLab/DASH.
English
Shampoo is one of the leading approximate second-order optimizers: a variant of it has won the MLCommons AlgoPerf competition, and it has been shown to produce models with lower activation outliers that are easier to compress. Yet, applying Shampoo currently comes at the cost of significant computational slowdown, due to its expensive internal operations. In this paper, we take a significant step to address this shortcoming by proposing \method (for Distributed Accelerated SHampoo), a faster implementation of Distributed Shampoo based on two main new techniques: First, we show that preconditioner blocks can be stacked into 3D tensors to significantly improve GPU utilization; second, we introduce the Newton-DB iteration and the Chebyshev polynomial approximations as novel and faster approaches for computing the inverse matrix roots required by Shampoo. Along with these algorithmic contributions, we provide a first in-depth analysis of how matrix scaling critically affects Shampoo convergence. On the practical side, our GPU-aware implementation achieves up to 4.83times faster optimizer steps compared to the well-optimized Distributed Shampoo, while Newton-DB attains the lowest validation perplexity per iteration among all tested methods. Our code is available at https://github.com/IST-DASLab/DASH.