Variantiebeheer via Gewichtsherschaling in LLM Pre-training
Variance Control via Weight Rescaling in LLM Pre-training
March 21, 2025
Auteurs: Louis Owen, Abhay Kumar, Nilabhra Roy Chowdhury, Fabian Güra
cs.AI
Samenvatting
Het resultaat van pre-training van Large Language Models (LLM) hangt sterk af van gewichtsinitialisatie en variantiebeheerstrategieën. Hoewel het belang van initiële variantiebeheer algemeen goed gedocumenteerd is in neurale netwerken, is de literatuur over initialisatie en het beheer van de groei ervan tijdens LLM-pre-training specifiek enigszins beperkt. In dit artikel introduceren we het Layer Index Rescaling (LIR) gewichtsinitialisatieschema en de Target Variance Rescaling (TVR) variantiebeheerstrategie. Experimenten met een LLaMA-model van 1B parameters tonen aan dat beter variantiebeheer met behulp van deze technieken aanzienlijke verbeteringen oplevert in de prestaties op downstream taken (tot 4,6% op veelgebruikte pre-training benchmarks) en extreme activatiewaarden vermindert, waardoor uitdagingen gerelateerd aan kwantisatie en training met lage precisie worden gemitigeerd. Onze code is beschikbaar op: https://github.com/bluorion-com/weight_rescaling.
English
The outcome of Large Language Model (LLM) pre-training strongly depends on
weight initialization and variance control strategies. Although the importance
of initial variance control has been well documented in neural networks in
general, the literature on initialization and management of its growth during
LLM pre-training, specifically, is somewhat sparse. In this paper, we introduce
the Layer Index Rescaling (LIR) weight initialization scheme, and the Target
Variance Rescaling (TVR) variance control strategy. Experiments on a 1B
parameter LLaMA model demonstrate that better variance management using these
techniques yields substantial improvements in downstream task performance (up
to 4.6% on common pre-training benchmarks) and reduces extreme activation
values, thus mitigating challenges associated with quantization and
low-precision training. Our code is available at:
https://github.com/bluorion-com/weight_rescaling.Summary
AI-Generated Summary