De taille négligeable, d'effet significatif : Sur les vecteurs d'échelle dans les grands modèles de langage

Résumé

Les couches de normalisation dans les grands modèles de langage (LLMs) modernes se composent d'une opération de normalisation déterministe et d'un vecteur d'échelle apprenable. Alors que l'opération de normalisation a été largement étudiée, le vecteur d'échelle reste mal compris malgré son utilisation omniprésente. Dans ce travail, nous présentons une étude systématique des vecteurs d'échelle dans les LLMs sous les angles de l'expressivité, de l'optimisation et de la structure architecturale. Premièrement, nous montrons empiriquement que, bien que les vecteurs d'échelle ne constituent qu'une fraction négligeable des paramètres du modèle, leur suppression dégrade considérablement le pré-entraînement des LLMs. Notre théorie montre en outre que, dans les architectures Pre-Norm, les vecteurs d'échelle n'augmentent pas l'expressivité ; ils améliorent plutôt l'optimisation via un effet de préconditionnement auto-amplifiant sur les applications linéaires subséquentes. Deuxièmement, nous étudions le rôle de la décroissance du poids pour les vecteurs d'échelle. En distinguant les couches Input-Norm et Output-Norm, nous montrons théoriquement que la décroissance du poids est bénéfique pour les premières mais nuisible pour les secondes, en raison de leurs rôles distincts dans l'optimisation et l'expressivité. Troisièmement, motivés par cette compréhension, nous proposons trois améliorations légères et complémentaires des vecteurs d'échelle : l'hétérogénéité propre à chaque branche, un placement amélioré autour des applications linéaires, et une reparamétrisation magnitude-direction. La théorie et les expériences montrent que chaque amélioration apporte des gains constants. Enfin, nous combinons ces améliorations en une stratégie unifiée de vecteur d'échelle et l'évaluons via des expériences approfondies de pré-entraînement de LLMs sur des modèles denses et à mélange d'experts, de 0,12B à 2B paramètres, avec plusieurs optimiseurs et programmes de taux d'apprentissage, sous des budgets de tokens à l'échelle industrielle. La stratégie unifiée atteint systématiquement une perte terminale plus faible que les lignes de base bien réglées et présente un comportement de passage à l'échelle plus favorable, tout en ajoutant une surcharge négligeable en paramètres et en calcul.

English

Normalization layers in modern large language models (LLMs) consist of a deterministic normalization operation and a learnable scale vector. While the normalization operation has been extensively studied, the scale vector remains poorly understood despite its ubiquitous use. In this work, we present a systematic study of scale vectors in LLMs from the perspectives of expressivity, optimization, and architectural structure. First, we show empirically that although scale vectors constitute only a negligible fraction of model parameters, removing them substantially degrades LLM pre-training. Our theory further shows that, in Pre-Norm architectures, scale vectors do not increase expressivity; instead, they improve optimization through a self-amplifying preconditioning effect on subsequent linear mappings. Second, we investigate the role of weight decay for scale vectors. By distinguishing Input-Norm and Output-Norm layers, we theoretically show that weight decay is beneficial for the former but harmful for the latter, due to their distinct roles in optimization and expressivity. Third, motivated by this understanding, we propose three lightweight and complementary improvements to scale vectors: branch-specific heterogeneity, improved placement around linear mappings, and magnitude-direction reparameterization. Both theory and experiments show that each improvement yields consistent gains. Finally, we combine these improvements into a unified scale-vector strategy and evaluate it through extensive LLM pre-training experiments on dense and mixture-of-experts models ranging from 0.12B to 2B parameters, across multiple optimizers and learning rate schedules, under industrial-scale token budgets. The unified strategy consistently achieves lower terminal loss than well-tuned baselines and exhibits more favorable scaling behavior, while adding negligible parameter and computational overhead.