Adam verbessert Muon: Adaptive Momentenschätzung mit orthogonalisiertem Impuls

Zusammenfassung

Effiziente stochastische Optimierung integriert typischerweise eine Update-Richtung, die gute Leistung im deterministischen Regime zeigt, mit einem Mechanismus, der sich an stochastische Störungen anpasst. Während Adam adaptive Momentenschätzung zur Förderung der Stabilität nutzt, verwendet Muon die Matrixstruktur der Gewichtslagen über orthogonalisierten Momentum und zeigt überlegene Leistung beim Training großer Sprachmodelle. Wir schlagen einen neuen Optimierer und eine diagonale Erweiterung vor, NAMO und NAMO-D, die die erste prinzipielle Integration von orthogonalisiertem Momentum mit normbasierter Adam-artiger Rauschanpassung bieten. NAMO skaliert orthogonalisierten Momentum unter Verwendung eines einzelnen adaptiven Schrittmaßes, bewahrt dabei die Orthogonalität und verbessert die Leistung von Muon bei vernachlässigbarem zusätzlichem Aufwand. NAMO-D multipliziert stattdessen orthogonalisierten Momentum rechts mit einer Diagonalmatrix mit begrenzten Einträgen. Dieses Design ermöglicht eine neuronweise Rauschanpassung und entspricht der üblichen nahezu blockdiagonalen Hessischen Struktur. Unter Standardannahmen zeigen wir optimale Konvergenzraten für beide Algorithmen im deterministischen Fall und weisen nach, dass ihre Konvergenzgarantien im stochastischen Fall an das Rauschniveau der stochastischen Gradienten adaptieren. Experimente zum Vortraining von GPT-2-Modellen demonstrieren eine verbesserte Leistung von NAMO und NAMO-D im Vergleich zu den AdamW- und Muon-Baselines, wobei NAMO-D durch einen zusätzlichen Begrenzungshyperparameter weitere Gewinne gegenüber NAMO erzielt, der die konkurrierenden Ziele der Beibehaltung einer gut konditionierten Update-Richtung und der Nutzung feinkörniger Rauschanpassung ausbalanciert.

English

Efficient stochastic optimization typically integrates an update direction that performs well in the deterministic regime with a mechanism adapting to stochastic perturbations. While Adam uses adaptive moment estimates to promote stability, Muon utilizes the weight layers' matrix structure via orthogonalized momentum, showing superior performance in large language model training. We propose a new optimizer and a diagonal extension, NAMO and NAMO-D, providing the first principled integration of orthogonalized momentum with norm-based Adam-type noise adaptation. NAMO scales orthogonalized momentum using a single adaptive stepsize, preserving orthogonality while improving upon Muon at negligible additional cost. NAMO-D instead right-multiplies orthogonalized momentum by a diagonal matrix with clamped entries. This design enables neuron-wise noise adaptation and aligns with the common near block-diagonal Hessian structure. Under standard assumptions, we establish optimal convergence rates for both algorithms in the deterministic setting and show that, in the stochastic setting, their convergence guarantees adapt to the noise level of stochastic gradients. Experiments on pretraining GPT-2 models demonstrate improved performance of both NAMO and NAMO-D compared to the AdamW and Muon baselines, with NAMO-D achieving further gains over NAMO via an additional clamping hyperparameter that balances the competing goals of maintaining a well-conditioned update direction and leveraging fine-grained noise adaptation.

Adam verbessert Muon: Adaptive Momentenschätzung mit orthogonalisiertem Impuls

Adam Improves Muon: Adaptive Moment Estimation with Orthogonalized Momentum

Zusammenfassung

Support