DynMuon: Eine Betrachtung der dynamischen spektralen Formgebung des Myons

Zusammenfassung

In den letzten Jahren hat sich Muon als dominierende Methode zum Training großer Sprachmodelle und allgemein von Transformatoren etabliert. Der wesentliche Unterschied zu herkömmlichen Gradientenabstiegsverfahren besteht darin, die übliche Updatematrix M=UΣV^⊤ durch ihren Polarfaktor UV^⊤ zu ersetzen. In dieser Arbeit betrachten wir eine Klasse von Muon-ähnlichen Updates, bei denen wir die Updatematrix M durch UΣ^p V^⊤ für einen Parameter p ersetzen. Wir bezeichnen dies als eine Operation der „spektralen Formgebung“ und entwickeln eine Theorie zur Wahl von p, die von (a) der lokalen Krümmung der Verlustfunktion, (b) Rauschen durch stochastische Gradienten und Label-Rauschen sowie (c) dem Trainingsstadium abhängt. Unsere Theorie und Experimente offenbaren ein bisher übersehenes Verhalten: Ein positives p hilft zu Beginn, indem es krümmungsstarke Richtungen betont und die Signalkontraktion beschleunigt, während ein schwach negatives p später hilft, indem es die Update-Stärke auf krümmungsschwache Richtungen umverteilt, die noch nützliche Trainingssignale enthalten. Ausgehend von dieser Erkenntnis schlagen wir DynMuon vor, eine effiziente dynamische Methode zur spektralen Formgebung, die p im Verlauf des Trainings von positiv zu schwach negativ plant. Umfangreiche Experimente über verschiedene Modellgrößen, Architekturen und Trainingsumgebungen zeigen, dass DynMuon konsistent niedrigere Validierungsverluste als Muon erreicht und dabei 10,6–26,5 % weniger Schritte benötigt, um den gleichen Zielverlust zu erzielen.

English

In recent years, Muon has emerged as the dominant method for training large language models, and transformers more broadly. The essential difference, when compared to standard gradient descent methods, is to replace the usual update matrix M=UΣV^top with its polar factor UV^top. In this work, we consider a class of Muon-like updates, where we replace the update M with UΣ^p V^top for some parameter p. We call this a "spectral-shaping" operation, and develop a theory of how to pick p which depends on (a) local curvature of the loss function, (b) noise stemming from stochastic gradients and label noise, and (c) training stage. Our theory and experimentation reveal a previously overlooked behavior: positive p helps early by emphasizing high-curvature directions and accelerating signal contraction, while mildly negative p helps later by reallocating update strength toward low-curvature directions that still contain useful training signals. Building on the insight, we propose DynMuon, an efficient dynamic spectral shaping method that schedules p from positive to mildly negative over training. Extensive experiments across model sizes, architectures, and training settings show that DynMuon consistently achieves lower validation loss than Muon, while requiring 10.6-26.5% fewer steps to reach the same target loss.