Moltiplicatori Apprendibili: Liberare la Scala dei Livelli Matriciali nei Modelli Linguistici

Abstract

L'applicazione del decadimento del peso (weight decay, WD) agli strati matriciali è una pratica standard nel pre-addestramento di modelli linguistici di grandi dimensioni. Ricerche precedenti suggeriscono che il rumore stocastico del gradiente induce un'espansione di tipo browniano delle matrici dei pesi W, la cui crescita è contrastata dal WD, portando a un equilibrio WD-rumore con una certa norma dei pesi ||W||. In questo lavoro, consideriamo la norma di equilibrio come un artefatto dannoso della procedura di addestramento e la affrontiamo introducendo moltiplicatori apprendibili per apprendere la scala ottimale. In primo luogo, associamo un moltiplicatore scalare apprendibile a W e confermiamo che la norma di equilibrio WD-rumore è subottimale: la scala appresa si adatta ai dati e migliora le prestazioni. Successivamente, sosteniamo che anche le norme individuali delle righe e delle colonne sono vincolate in modo simile e liberiamo la loro scala introducendo moltiplicatori apprendibili per riga e per colonna. Il nostro metodo può essere visto come una generalizzazione apprendibile e più espressiva dei moltiplicatori muP. Esso supera una baseline muP ben regolata, riduce il sovraccarico computazionale della sintonizzazione dei moltiplicatori e solleva questioni pratiche come le simmetrie nel passaggio in avanti (forward-pass) e la scalabilità in ampiezza (width-scaling) dei moltiplicatori appresi. Infine, convalidiamo i moltiplicatori apprendibili sia con l'ottimizzatore Adam che con Muon, dove si osserva un miglioramento nelle valutazioni downstream che eguaglia il miglioramento ottenuto passando da Adam a Muon.

English

Applying weight decay (WD) to matrix layers is standard practice in large-language-model pretraining. Prior work suggests that stochastic gradient noise induces a Brownian-like expansion of the weight matrices W, whose growth is counteracted by WD, leading to a WD-noise equilibrium with a certain weight norm ||W||. In this work, we view the equilibrium norm as a harmful artifact of the training procedure, and address it by introducing learnable multipliers to learn the optimal scale. First, we attach a learnable scalar multiplier to W and confirm that the WD-noise equilibrium norm is suboptimal: the learned scale adapts to data and improves performance. We then argue that individual row and column norms are similarly constrained, and free their scale by introducing learnable per-row and per-column multipliers. Our method can be viewed as a learnable, more expressive generalization of muP multipliers. It outperforms a well-tuned muP baseline, reduces the computational overhead of multiplier tuning, and surfaces practical questions such as forward-pass symmetries and the width-scaling of the learned multipliers. Finally, we validate learnable multipliers with both Adam and Muon optimizers, where it shows improvement in downstream evaluations matching the improvement of the switching from Adam to Muon.

Moltiplicatori Apprendibili: Liberare la Scala dei Livelli Matriciali nei Modelli Linguistici

Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers

Abstract

Support