Desprezível em Tamanho, Significativo em Efeito: Sobre Vetores de Escala em Grandes Modelos de Linguagem

Resumo

As camadas de normalização em grandes modelos de linguagem modernos (LLMs) consistem em uma operação de normalização determinística e um vetor de escala aprendível. Embora a operação de normalização tenha sido extensivamente estudada, o vetor de escala permanece pouco compreendido, apesar de seu uso ubíquo. Neste trabalho, apresentamos um estudo sistemático dos vetores de escala em LLMs sob as perspectivas de expressividade, otimização e estrutura arquitetural. Primeiro, mostramos empiricamente que, embora os vetores de escala constituam apenas uma fração insignificante dos parâmetros do modelo, removê-los degrada substancialmente o pré-treinamento de LLMs. Nossa teoria mostra ainda que, em arquiteturas Pré-Norm, os vetores de escala não aumentam a expressividade; em vez disso, eles melhoram a otimização por meio de um efeito de pré-condicionamento autoamplificador nos mapeamentos lineares subsequentes. Segundo, investigamos o papel do decaimento de peso para vetores de escala. Ao distinguir camadas Input-Norm e Output-Norm, mostramos teoricamente que o decaimento de peso é benéfico para as primeiras, mas prejudicial para as últimas, devido aos seus papéis distintos na otimização e expressividade. Terceiro, motivados por esse entendimento, propomos três melhorias leves e complementares para vetores de escala: heterogeneidade específica de ramificação, posicionamento aprimorado em torno de mapeamentos lineares e reparametrização de magnitude-direção. Tanto a teoria quanto os experimentos mostram que cada melhoria produz ganhos consistentes. Finalmente, combinamos essas melhorias em uma estratégia unificada de vetor de escala e a avaliamos por meio de extensos experimentos de pré-treinamento de LLMs em modelos densos e de mistura de especialistas, variando de 0,12B a 2B parâmetros, com múltiplos otimizadores e cronogramas de taxa de aprendizado, sob orçamentos de tokens em escala industrial. A estratégia unificada atinge consistentemente uma perda terminal menor do que as linhas de base bem ajustadas e exibe um comportamento de escalonamento mais favorável, ao mesmo tempo que adiciona uma sobrecarga insignificante de parâmetros e computação.

English

Normalization layers in modern large language models (LLMs) consist of a deterministic normalization operation and a learnable scale vector. While the normalization operation has been extensively studied, the scale vector remains poorly understood despite its ubiquitous use. In this work, we present a systematic study of scale vectors in LLMs from the perspectives of expressivity, optimization, and architectural structure. First, we show empirically that although scale vectors constitute only a negligible fraction of model parameters, removing them substantially degrades LLM pre-training. Our theory further shows that, in Pre-Norm architectures, scale vectors do not increase expressivity; instead, they improve optimization through a self-amplifying preconditioning effect on subsequent linear mappings. Second, we investigate the role of weight decay for scale vectors. By distinguishing Input-Norm and Output-Norm layers, we theoretically show that weight decay is beneficial for the former but harmful for the latter, due to their distinct roles in optimization and expressivity. Third, motivated by this understanding, we propose three lightweight and complementary improvements to scale vectors: branch-specific heterogeneity, improved placement around linear mappings, and magnitude-direction reparameterization. Both theory and experiments show that each improvement yields consistent gains. Finally, we combine these improvements into a unified scale-vector strategy and evaluate it through extensive LLM pre-training experiments on dense and mixture-of-experts models ranging from 0.12B to 2B parameters, across multiple optimizers and learning rate schedules, under industrial-scale token budgets. The unified strategy consistently achieves lower terminal loss than well-tuned baselines and exhibits more favorable scaling behavior, while adding negligible parameter and computational overhead.