Vernachlässigbar in der Größe, signifikant in der Wirkung: Über Skalenvektoren in großen Sprachmodellen

Zusammenfassung

Normalisierungsschichten in modernen großen Sprachmodellen (Large Language Models, LLMs) bestehen aus einer deterministischen Normalisierungsoperation und einem lernbaren Skalierungsvektor. Während die Normalisierungsoperation umfassend untersucht wurde, ist der Skalierungsvektor trotz seiner allgegenwärtigen Verwendung noch wenig verstanden. In dieser Arbeit präsentieren wir eine systematische Untersuchung von Skalierungsvektoren in LLMs aus den Perspektiven der Ausdrucksstärke, Optimierung und Architekturstruktur. Zunächst zeigen wir empirisch, dass Skalierungsvektoren zwar nur einen vernachlässigbaren Anteil der Modellparameter ausmachen, ihr Entfernen jedoch das Pre-Training von LLMs erheblich verschlechtert. Unsere Theorie zeigt weiter, dass Skalierungsvektoren in Pre-Norm-Architekturen die Ausdrucksstärke nicht erhöhen; stattdessen verbessern sie die Optimierung durch einen selbstverstärkenden Vorkonditionierungseffekt auf nachfolgende lineare Abbildungen. Zweitens untersuchen wir die Rolle des Gewichtsabfalls (Weight Decay) für Skalierungsvektoren. Durch die Unterscheidung von Input-Norm- und Output-Norm-Schichten zeigen wir theoretisch, dass Gewichtsabfall für erstere vorteilhaft, für letztere jedoch schädlich ist, aufgrund ihrer unterschiedlichen Rollen in Optimierung und Ausdrucksstärke. Drittens schlagen wir, motiviert durch dieses Verständnis, drei leichte und komplementäre Verbesserungen für Skalierungsvektoren vor: zweigspezifische Heterogenität, verbesserte Platzierung um lineare Abbildungen und Größen-Richtungs-Reparametrisierung. Sowohl Theorie als auch Experimente zeigen, dass jede Verbesserung konsistente Gewinne erzielt. Schließlich fassen wir diese Verbesserungen zu einer einheitlichen Skalierungsvektorstrategie zusammen und evaluieren sie durch umfangreiche LLM-Pre-Training-Experimente an dichten und Mixture-of-Experts-Modellen mit 0,12B bis 2B Parametern, über mehrere Optimierer und Lernratenpläne hinweg, unter industriell relevanten Token-Budgets. Die einheitliche Strategie erzielt durchgängig einen niedrigeren Endverlust als gut abgestimmte Basislinien und zeigt ein günstigeres Skalierungsverhalten, während sie nur vernachlässigbaren Parameter- und Rechenaufwand hinzufügt.

English

Normalization layers in modern large language models (LLMs) consist of a deterministic normalization operation and a learnable scale vector. While the normalization operation has been extensively studied, the scale vector remains poorly understood despite its ubiquitous use. In this work, we present a systematic study of scale vectors in LLMs from the perspectives of expressivity, optimization, and architectural structure. First, we show empirically that although scale vectors constitute only a negligible fraction of model parameters, removing them substantially degrades LLM pre-training. Our theory further shows that, in Pre-Norm architectures, scale vectors do not increase expressivity; instead, they improve optimization through a self-amplifying preconditioning effect on subsequent linear mappings. Second, we investigate the role of weight decay for scale vectors. By distinguishing Input-Norm and Output-Norm layers, we theoretically show that weight decay is beneficial for the former but harmful for the latter, due to their distinct roles in optimization and expressivity. Third, motivated by this understanding, we propose three lightweight and complementary improvements to scale vectors: branch-specific heterogeneity, improved placement around linear mappings, and magnitude-direction reparameterization. Both theory and experiments show that each improvement yields consistent gains. Finally, we combine these improvements into a unified scale-vector strategy and evaluate it through extensive LLM pre-training experiments on dense and mixture-of-experts models ranging from 0.12B to 2B parameters, across multiple optimizers and learning rate schedules, under industrial-scale token budgets. The unified strategy consistently achieves lower terminal loss than well-tuned baselines and exhibits more favorable scaling behavior, while adding negligible parameter and computational overhead.