Multiplicadores Aprendíveis: Liberando a Escala das Camadas Matriciais de Modelos de Linguagem

Resumo

A aplicação de *weight decay* (WD) a camadas matriciais é uma prática padrão no pré-treinamento de grandes modelos de linguagem. Trabalhos anteriores sugerem que o ruído do gradiente estocástico induz uma expansão do tipo Browniano das matrizes de pesos W, cujo crescimento é neutralizado pelo WD, levando a um equilíbrio WD-ruído com uma determinada norma de peso ||W||. Neste trabalho, vemos a norma de equilíbrio como um artefacto prejudicial do procedimento de treino e abordamo-la através da introdução de multiplicadores adaptáveis para aprender a escala ótima. Primeiro, associamos um multiplicador escalar adaptável a W e confirmamos que a norma de equilíbrio WD-ruído é subótima: a escala aprendida adapta-se aos dados e melhora o desempenho. Em seguida, argumentamos que as normas individuais de linhas e colunas estão igualmente restringidas e libertamos a sua escala através da introdução de multiplicadores adaptáveis por linha e por coluna. O nosso método pode ser visto como uma generalização adaptável e mais expressiva dos multiplicadores *muP*. Ele supera uma linha de base *muP* bem sintonizada, reduz a sobrecarga computacional do ajuste de multiplicadores e levanta questões práticas, como simetrias no *forward-pass* e a escalabilidade em largura dos multiplicadores aprendidos. Finalmente, validamos os multiplicadores adaptáveis com os otimizadores Adam e Muon, onde se verifica uma melhoria nas avaliações *downstream* equivalente à melhoria obtida ao mudar de Adam para Muon.

English

Applying weight decay (WD) to matrix layers is standard practice in large-language-model pretraining. Prior work suggests that stochastic gradient noise induces a Brownian-like expansion of the weight matrices W, whose growth is counteracted by WD, leading to a WD-noise equilibrium with a certain weight norm ||W||. In this work, we view the equilibrium norm as a harmful artifact of the training procedure, and address it by introducing learnable multipliers to learn the optimal scale. First, we attach a learnable scalar multiplier to W and confirm that the WD-noise equilibrium norm is suboptimal: the learned scale adapts to data and improves performance. We then argue that individual row and column norms are similarly constrained, and free their scale by introducing learnable per-row and per-column multipliers. Our method can be viewed as a learnable, more expressive generalization of muP multipliers. It outperforms a well-tuned muP baseline, reduces the computational overhead of multiplier tuning, and surfaces practical questions such as forward-pass symmetries and the width-scaling of the learned multipliers. Finally, we validate learnable multipliers with both Adam and Muon optimizers, where it shows improvement in downstream evaluations matching the improvement of the switching from Adam to Muon.

Multiplicadores Aprendíveis: Liberando a Escala das Camadas Matriciais de Modelos de Linguagem

Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers

Resumo

Support