Verwaarloosbaar in omvang, significant in effect: Over schaalvectoren in grote taalmodellen

Samenvatting

Normalisatielagen in moderne grote taalmodellen (LLMs) bestaan uit een deterministische normalisatiebewerking en een leerbare schaalvector. Terwijl de normalisatiebewerking uitgebreid is bestudeerd, blijft de schaalvector slecht begrepen, ondanks het alomtegenwoordige gebruik ervan. In dit werk presenteren wij een systematisch onderzoek van schaalvectoren in LLMs vanuit het perspectief van expressiviteit, optimalisatie en architectuurstructuur. Ten eerste tonen wij empirisch aan dat, hoewel schaalvectoren slechts een verwaarloosbaar deel van de modelparameters uitmaken, het verwijderen ervan de pre-training van LLMs aanzienlijk verslechtert. Onze theorie toont verder aan dat, in Pre-Norm-architecturen, schaalvectoren de expressiviteit niet vergroten; in plaats daarvan verbeteren zij de optimalisatie via een zelfversterkend preconditioneringseffect op daaropvolgende lineaire afbeeldingen. Ten tweede onderzoeken wij de rol van gewichtsverval voor schaalvectoren. Door onderscheid te maken tussen Input-Norm- en Output-Norm-lagen, tonen wij theoretisch aan dat gewichtsverval gunstig is voor de eerste maar schadelijk voor de laatste, vanwege hun verschillende rollen in optimalisatie en expressiviteit. Ten derde stellen wij, gemotiveerd door dit begrip, drie lichtgewicht en complementaire verbeteringen voor schaalvectoren voor: tak-specifieke heterogeniteit, verbeterde positionering rond lineaire afbeeldingen, en grootte-richting-herparameterisatie. Zowel theorie als experimenten tonen aan dat elke verbetering consistente winst oplevert. Ten slotte combineren wij deze verbeteringen in een uniforme schaalvectorstrategie en evalueren deze door middel van uitgebreide LLM-pre-trainingsexperimenten op dichte en mengsel-van-experts-modellen variërend van 0,12B tot 2B parameters, over meerdere optimizers en leersnelheidsschema's, onder industriële tokenbudgetten. De uniforme strategie behaalt consistent een lager eindverlies dan goed afgestemde basislijnen en vertoont een gunstiger schaalgedrag, terwijl er verwaarloosbare parameter- en rekenoverhead wordt toegevoegd.

English

Normalization layers in modern large language models (LLMs) consist of a deterministic normalization operation and a learnable scale vector. While the normalization operation has been extensively studied, the scale vector remains poorly understood despite its ubiquitous use. In this work, we present a systematic study of scale vectors in LLMs from the perspectives of expressivity, optimization, and architectural structure. First, we show empirically that although scale vectors constitute only a negligible fraction of model parameters, removing them substantially degrades LLM pre-training. Our theory further shows that, in Pre-Norm architectures, scale vectors do not increase expressivity; instead, they improve optimization through a self-amplifying preconditioning effect on subsequent linear mappings. Second, we investigate the role of weight decay for scale vectors. By distinguishing Input-Norm and Output-Norm layers, we theoretically show that weight decay is beneficial for the former but harmful for the latter, due to their distinct roles in optimization and expressivity. Third, motivated by this understanding, we propose three lightweight and complementary improvements to scale vectors: branch-specific heterogeneity, improved placement around linear mappings, and magnitude-direction reparameterization. Both theory and experiments show that each improvement yields consistent gains. Finally, we combine these improvements into a unified scale-vector strategy and evaluate it through extensive LLM pre-training experiments on dense and mixture-of-experts models ranging from 0.12B to 2B parameters, across multiple optimizers and learning rate schedules, under industrial-scale token budgets. The unified strategy consistently achieves lower terminal loss than well-tuned baselines and exhibits more favorable scaling behavior, while adding negligible parameter and computational overhead.