DynMuon: Uma visão de modelagem espectral dinâmica do múon

Resumo

Nos últimos anos, o Muon emergiu como o método dominante para treinar grandes modelos de linguagem e, de forma mais ampla, transformers. A diferença essencial, quando comparado aos métodos padrão de gradiente descendente, é substituir a matriz de atualização usual M = UΣV^⊤ pelo seu fator polar UV^⊤. Neste trabalho, consideramos uma classe de atualizações do tipo Muon, nas quais substituímos a atualização M por UΣ^p V^⊤ para algum parâmetro p. Chamamos essa operação de "modelagem espectral" e desenvolvemos uma teoria sobre como escolher p, que depende (a) da curvatura local da função de perda, (b) do ruído proveniente de gradientes estocásticos e ruído de rótulos, e (c) do estágio de treinamento. Nossa teoria e experimentação revelam um comportamento anteriormente negligenciado: p positivo ajuda no início ao enfatizar direções de alta curvatura e acelerar a contração do sinal, enquanto p ligeiramente negativo ajuda em estágios posteriores ao realocar a força de atualização para direções de baixa curvatura que ainda contêm sinais úteis de treinamento. Com base nessa percepção, propomos o DynMuon, um método eficiente de modelagem espectral dinâmica que ajusta p de positivo para ligeiramente negativo ao longo do treinamento. Experimentos abrangentes em diferentes tamanhos de modelo, arquiteturas e configurações de treinamento mostram que o DynMuon alcança consistentemente uma perda de validação menor que o Muon, ao mesmo tempo que requer 10,6–26,5% menos etapas para atingir a mesma perda alvo.

English

In recent years, Muon has emerged as the dominant method for training large language models, and transformers more broadly. The essential difference, when compared to standard gradient descent methods, is to replace the usual update matrix M=UΣV^top with its polar factor UV^top. In this work, we consider a class of Muon-like updates, where we replace the update M with UΣ^p V^top for some parameter p. We call this a "spectral-shaping" operation, and develop a theory of how to pick p which depends on (a) local curvature of the loss function, (b) noise stemming from stochastic gradients and label noise, and (c) training stage. Our theory and experimentation reveal a previously overlooked behavior: positive p helps early by emphasizing high-curvature directions and accelerating signal contraction, while mildly negative p helps later by reallocating update strength toward low-curvature directions that still contain useful training signals. Building on the insight, we propose DynMuon, an efficient dynamic spectral shaping method that schedules p from positive to mildly negative over training. Extensive experiments across model sizes, architectures, and training settings show that DynMuon consistently achieves lower validation loss than Muon, while requiring 10.6-26.5% fewer steps to reach the same target loss.