Leerbare Vermenigvuldigingsfactoren: Het Bevrijden van de Schaal van Matrixlagen in Taalmodellen

Samenvatting

Het toepassen van gewichtsverval (weight decay, WD) op matrixlagen is standaardpraktijk bij het vooraf trainen van grote-taalmodelmodellen. Eerder onderzoek suggereert dat stochastische gradientruis een Browniaanse-achtige expansie van de gewichtsmatrices W induceert, waarvan de groei wordt tegengewerkt door WD, wat leidt tot een WD-ruis-evenwicht met een bepaalde gewichtsnorm ||W||. In dit werk beschouwen we de evenwichtsnorm als een schadelijk artefact van het trainingsproces en pakken we dit aan door leerbare vermenigvuldigers (multipliers) te introduceren om de optimale schaal te leren. Ten eerste voegen we een leerbare scalaire vermenigvuldiger aan W toe en bevestigen we dat de WD-ruis-evenwichtsnorm suboptimaal is: de geleerde schaal past zich aan de data aan en verbetert de prestaties. Vervolgens beargumenteren we dat individuele rij- en kolomnormen op een vergelijkbare manier worden beperkt, en bevrijden we hun schaal door het introduceren van leerbare per-rij en per-kolom vermenigvuldigers. Onze methode kan worden gezien als een leerbare, expressievere generalisatie van muP-vermenigvuldigers. Het presteert beter dan een goed afgestelde muP-basislijn, vermindert de rekenkosten van het afstemmen van vermenigvuldigers, en brengt praktische vragen aan het licht, zoals symmetrieën in de voorwaartse pass (forward-pass symmetries) en de schaalvergroting (width-scaling) van de geleerde vermenigvuldigers. Ten slotte valideren we leerbare vermenigvuldigers met zowel Adam- als Muon-optimalisatie, waarbij het een verbetering laat zien in downstream-evaluaties die overeenkomt met de verbetering van de overstap van Adam naar Muon.

English

Applying weight decay (WD) to matrix layers is standard practice in large-language-model pretraining. Prior work suggests that stochastic gradient noise induces a Brownian-like expansion of the weight matrices W, whose growth is counteracted by WD, leading to a WD-noise equilibrium with a certain weight norm ||W||. In this work, we view the equilibrium norm as a harmful artifact of the training procedure, and address it by introducing learnable multipliers to learn the optimal scale. First, we attach a learnable scalar multiplier to W and confirm that the WD-noise equilibrium norm is suboptimal: the learned scale adapts to data and improves performance. We then argue that individual row and column norms are similarly constrained, and free their scale by introducing learnable per-row and per-column multipliers. Our method can be viewed as a learnable, more expressive generalization of muP multipliers. It outperforms a well-tuned muP baseline, reduces the computational overhead of multiplier tuning, and surfaces practical questions such as forward-pass symmetries and the width-scaling of the learned multipliers. Finally, we validate learnable multipliers with both Adam and Muon optimizers, where it shows improvement in downstream evaluations matching the improvement of the switching from Adam to Muon.

Leerbare Vermenigvuldigingsfactoren: Het Bevrijden van de Schaal van Matrixlagen in Taalmodellen

Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers

Samenvatting

Support