Ничтожные по размеру, значительные по эффекту: о векторах масштаба в больших языковых моделях
Negligible in Size, Significant in Effect: On Scale Vectors in Large Language Models
May 26, 2026
Авторы: Mingze Wang, Shuchen Zhu, Yuxin Fang, Binghui Li, Kai Shen, Shu Zhong
cs.AI
Аннотация
Нормализационные слои в современных больших языковых моделях (LLM) состоят из детерминированной операции нормализации и обучаемого вектора масштаба. В то время как операция нормализации была широко изучена, вектор масштаба остается плохо понятым, несмотря на его повсеместное использование. В данной работе мы представляем систематическое исследование векторов масштаба в LLM с точки зрения выразительности, оптимизации и архитектурной структуры. Во-первых, мы эмпирически показываем, что хотя векторы масштаба составляют лишь ничтожную долю параметров модели, их удаление существенно ухудшает предварительное обучение LLM. Наша теория также показывает, что в архитектурах Pre-Norm векторы масштаба не увеличивают выразительность; вместо этого они улучшают оптимизацию за счет самоусиливающегося эффекта предобусловливания для последующих линейных отображений. Во-вторых, мы исследуем роль затухания весов для векторов масштаба. Различая слои Input-Norm и Output-Norm, мы теоретически показываем, что затухание весов полезно для первых, но вредно для вторых, из-за их различных ролей в оптимизации и выразительности. В-третьих, руководствуясь этим пониманием, мы предлагаем три легковесных и взаимодополняющих улучшения для векторов масштаба: гетерогенность, специфичную для ветвей, улучшенное размещение вокруг линейных отображений и репараметризацию величины и направления. Как теория, так и эксперименты показывают, что каждое улучшение дает стабильный прирост. Наконец, мы объединяем эти улучшения в единую стратегию векторов масштаба и оцениваем ее с помощью обширных экспериментов по предварительному обучению LLM на плотных моделях и моделях смеси экспертов с числом параметров от 0,12B до 2B, используя несколько оптимизаторов и графиков скорости обучения, в рамках бюджетов токенов промышленного масштаба. Единая стратегия последовательно достигает более низких конечных потерь, чем хорошо настроенные базовые модели, и демонстрирует более благоприятное поведение при масштабировании, добавляя при этом незначительные накладные расходы по параметрам и вычислениям.
English
Normalization layers in modern large language models (LLMs) consist of a deterministic normalization operation and a learnable scale vector. While the normalization operation has been extensively studied, the scale vector remains poorly understood despite its ubiquitous use. In this work, we present a systematic study of scale vectors in LLMs from the perspectives of expressivity, optimization, and architectural structure. First, we show empirically that although scale vectors constitute only a negligible fraction of model parameters, removing them substantially degrades LLM pre-training. Our theory further shows that, in Pre-Norm architectures, scale vectors do not increase expressivity; instead, they improve optimization through a self-amplifying preconditioning effect on subsequent linear mappings. Second, we investigate the role of weight decay for scale vectors. By distinguishing Input-Norm and Output-Norm layers, we theoretically show that weight decay is beneficial for the former but harmful for the latter, due to their distinct roles in optimization and expressivity. Third, motivated by this understanding, we propose three lightweight and complementary improvements to scale vectors: branch-specific heterogeneity, improved placement around linear mappings, and magnitude-direction reparameterization. Both theory and experiments show that each improvement yields consistent gains. Finally, we combine these improvements into a unified scale-vector strategy and evaluate it through extensive LLM pre-training experiments on dense and mixture-of-experts models ranging from 0.12B to 2B parameters, across multiple optimizers and learning rate schedules, under industrial-scale token budgets. The unified strategy consistently achieves lower terminal loss than well-tuned baselines and exhibits more favorable scaling behavior, while adding negligible parameter and computational overhead.