DynMuon: Een dynamisch beeld van spectrale vormgeving van muon

Samenvatting

In de afgelopen jaren is Muon uitgegroeid tot de dominante methode voor het trainen van grote taalmodellen, en in bredere zin van transformatoren. Het essentiële verschil, vergeleken met standaard gradiëntafdalingsmethoden, is het vervangen van de gebruikelijke updatematrix M=UΣV^top door zijn polaire factor UV^top. In dit werk beschouwen we een klasse van Muon-achtige updates, waarbij we de update M vervangen door UΣ^p V^top voor een parameter p. Dit noemen we een "spectraalvormende" bewerking, en we ontwikkelen een theorie over hoe p te kiezen, die afhangt van (a) de lokale kromming van de verliesfunctie, (b) ruis afkomstig van stochastische gradiënten en labelruis, en (c) de trainingsfase. Onze theorie en experimenten onthullen een voorheen over het hoofd gezien gedrag: positieve p helpt in het begin door richtingen met hoge kromming te benadrukken en signaalcontractie te versnellen, terwijl licht negatieve p later helpt door updatesterkte te herverdelen naar richtingen met lage kromming die nog steeds nuttige trainingssignalen bevatten. Voortbouwend op dit inzicht stellen we DynMuon voor, een efficiënte dynamische spectrale vormingsmethode die p van positief naar licht negatief in de loop van de training inplant. Uitgebreide experimenten met verschillende modelgroottes, architecturen en trainingsinstellingen laten zien dat DynMuon consequent een lager validatieverlies bereikt dan Muon, terwijl het 10,6–26,5% minder stappen nodig heeft om hetzelfde doelverlies te bereiken.

English

In recent years, Muon has emerged as the dominant method for training large language models, and transformers more broadly. The essential difference, when compared to standard gradient descent methods, is to replace the usual update matrix M=UΣV^top with its polar factor UV^top. In this work, we consider a class of Muon-like updates, where we replace the update M with UΣ^p V^top for some parameter p. We call this a "spectral-shaping" operation, and develop a theory of how to pick p which depends on (a) local curvature of the loss function, (b) noise stemming from stochastic gradients and label noise, and (c) training stage. Our theory and experimentation reveal a previously overlooked behavior: positive p helps early by emphasizing high-curvature directions and accelerating signal contraction, while mildly negative p helps later by reallocating update strength toward low-curvature directions that still contain useful training signals. Building on the insight, we propose DynMuon, an efficient dynamic spectral shaping method that schedules p from positive to mildly negative over training. Extensive experiments across model sizes, architectures, and training settings show that DynMuon consistently achieves lower validation loss than Muon, while requiring 10.6-26.5% fewer steps to reach the same target loss.