DASH: Schnelleres Shampoo durch gebündelte Block-Vorkonditionierung und effiziente Inverse-Wurzel-Löser
DASH: Faster Shampoo via Batched Block Preconditioning and Efficient Inverse-Root Solvers
February 2, 2026
papers.authors: Ionut-Vlad Modoranu, Philip Zmushko, Erik Schultheis, Mher Safaryan, Dan Alistarh
cs.AI
papers.abstract
Shampoo gehört zu den führenden approximativen Optimierern zweiter Ordnung: Eine Variante davon hat den MLCommons AlgoPerf-Wettbewerb gewonnen, und es hat sich gezeigt, dass es Modelle mit weniger Aktivierungs-Ausreißern erzeugt, die leichter zu komprimieren sind. Die Anwendung von Shampoo geht jedoch derzeit mit erheblichen Rechenverlangsamungen einher, bedingt durch seine rechenintensiven internen Operationen. In diesem Artikel unternehmen wir einen bedeutenden Schritt zur Behebung dieses Mangels, indem wir \method (für Distributed Accelerated SHampoo) vorschlagen, eine schnellere Implementierung von Distributed Shampoo, die auf zwei neuen Haupttechniken basiert: Erstens zeigen wir, dass Preconditioner-Blöcke zu 3D-Tensoren gestapelt werden können, um die GPU-Auslastung erheblich zu verbessern; zweitens führen wir die Newton-DB-Iteration und die Tschebyscheff-Polynomapproximationen als neuartige und schnellere Ansätze zur Berechnung der von Shampoo benötigten inversen Matrixwurzeln ein. Neben diesen algorithmischen Beiträgen liefern wir eine erste eingehende Analyse darüber, wie sich Matrix-Skaling kritisch auf die Konvergenz von Shampoo auswirkt. Auf praktischer Seite erreicht unsere GPU-bewusste Implementierung bis zu 4,83-mal schnellere Optimiererschritte im Vergleich zum gut optimierten Distributed Shampoo, während Newton-DB die niedrigste Validierungs-Perplexität pro Iteration unter allen getesteten Methoden erzielt. Unser Code ist verfügbar unter https://github.com/IST-DASLab/DASH.
English
Shampoo is one of the leading approximate second-order optimizers: a variant of it has won the MLCommons AlgoPerf competition, and it has been shown to produce models with lower activation outliers that are easier to compress. Yet, applying Shampoo currently comes at the cost of significant computational slowdown, due to its expensive internal operations. In this paper, we take a significant step to address this shortcoming by proposing \method (for Distributed Accelerated SHampoo), a faster implementation of Distributed Shampoo based on two main new techniques: First, we show that preconditioner blocks can be stacked into 3D tensors to significantly improve GPU utilization; second, we introduce the Newton-DB iteration and the Chebyshev polynomial approximations as novel and faster approaches for computing the inverse matrix roots required by Shampoo. Along with these algorithmic contributions, we provide a first in-depth analysis of how matrix scaling critically affects Shampoo convergence. On the practical side, our GPU-aware implementation achieves up to 4.83times faster optimizer steps compared to the well-optimized Distributed Shampoo, while Newton-DB attains the lowest validation perplexity per iteration among all tested methods. Our code is available at https://github.com/IST-DASLab/DASH.