Despreciables en tamaño, significativos en efecto: Sobre los vectores de escala en modelos de lenguaje de gran escala

Resumen

Las capas de normalización en los modelos de lenguaje grandes (LLMs) modernos consisten en una operación de normalización determinista y un vector de escala aprendible. Si bien la operación de normalización ha sido ampliamente estudiada, el vector de escala sigue siendo poco comprendido a pesar de su uso ubicuo. En este trabajo, presentamos un estudio sistemático de los vectores de escala en LLMs desde las perspectivas de expresividad, optimización y estructura arquitectónica. Primero, mostramos empíricamente que, aunque los vectores de escala constituyen solo una fracción insignificante de los parámetros del modelo, su eliminación deteriora sustancialmente el preentrenamiento de LLMs. Nuestra teoría demuestra además que, en arquitecturas Pre-Norm, los vectores de escala no aumentan la expresividad; en cambio, mejoran la optimización mediante un efecto de precondicionamiento autoamplificador sobre las transformaciones lineales subsiguientes. Segundo, investigamos el rol del decaimiento de pesos para los vectores de escala. Distinguiendo entre capas Input-Norm y Output-Norm, mostramos teóricamente que el decaimiento de pesos es beneficioso para las primeras pero perjudicial para las segundas, debido a sus roles distintos en optimización y expresividad. Tercero, motivados por esta comprensión, proponemos tres mejoras ligeras y complementarias para los vectores de escala: heterogeneidad específica por rama, ubicación mejorada alrededor de transformaciones lineales y reparametrización magnitud-dirección. Tanto la teoría como los experimentos muestran que cada mejora produce ganancias consistentes. Finalmente, combinamos estas mejoras en una estrategia unificada de vectores de escala y la evaluamos mediante extensos experimentos de preentrenamiento de LLMs en modelos densos y de mezcla de expertos que van desde 0.12B hasta 2B parámetros, a través de múltiples optimizadores y programaciones de tasa de aprendizaje, bajo presupuestos de tokens a escala industrial. La estrategia unificada logra consistentemente una pérdida final más baja que las líneas de base bien ajustadas y exhibe un comportamiento de escalado más favorable, mientras añade una sobrecarga despreciable de parámetros y cómputo.

English

Normalization layers in modern large language models (LLMs) consist of a deterministic normalization operation and a learnable scale vector. While the normalization operation has been extensively studied, the scale vector remains poorly understood despite its ubiquitous use. In this work, we present a systematic study of scale vectors in LLMs from the perspectives of expressivity, optimization, and architectural structure. First, we show empirically that although scale vectors constitute only a negligible fraction of model parameters, removing them substantially degrades LLM pre-training. Our theory further shows that, in Pre-Norm architectures, scale vectors do not increase expressivity; instead, they improve optimization through a self-amplifying preconditioning effect on subsequent linear mappings. Second, we investigate the role of weight decay for scale vectors. By distinguishing Input-Norm and Output-Norm layers, we theoretically show that weight decay is beneficial for the former but harmful for the latter, due to their distinct roles in optimization and expressivity. Third, motivated by this understanding, we propose three lightweight and complementary improvements to scale vectors: branch-specific heterogeneity, improved placement around linear mappings, and magnitude-direction reparameterization. Both theory and experiments show that each improvement yields consistent gains. Finally, we combine these improvements into a unified scale-vector strategy and evaluate it through extensive LLM pre-training experiments on dense and mixture-of-experts models ranging from 0.12B to 2B parameters, across multiple optimizers and learning rate schedules, under industrial-scale token budgets. The unified strategy consistently achieves lower terminal loss than well-tuned baselines and exhibits more favorable scaling behavior, while adding negligible parameter and computational overhead.