Variantiebeheer via Gewichtsherschaling in LLM Pre-training

Samenvatting

Het resultaat van pre-training van Large Language Models (LLM) hangt sterk af van gewichtsinitialisatie en variantiebeheerstrategieën. Hoewel het belang van initiële variantiebeheer algemeen goed gedocumenteerd is in neurale netwerken, is de literatuur over initialisatie en het beheer van de groei ervan tijdens LLM-pre-training specifiek enigszins beperkt. In dit artikel introduceren we het Layer Index Rescaling (LIR) gewichtsinitialisatieschema en de Target Variance Rescaling (TVR) variantiebeheerstrategie. Experimenten met een LLaMA-model van 1B parameters tonen aan dat beter variantiebeheer met behulp van deze technieken aanzienlijke verbeteringen oplevert in de prestaties op downstream taken (tot 4,6% op veelgebruikte pre-training benchmarks) en extreme activatiewaarden vermindert, waardoor uitdagingen gerelateerd aan kwantisatie en training met lage precisie worden gemitigeerd. Onze code is beschikbaar op: https://github.com/bluorion-com/weight_rescaling.

English

The outcome of Large Language Model (LLM) pre-training strongly depends on weight initialization and variance control strategies. Although the importance of initial variance control has been well documented in neural networks in general, the literature on initialization and management of its growth during LLM pre-training, specifically, is somewhat sparse. In this paper, we introduce the Layer Index Rescaling (LIR) weight initialization scheme, and the Target Variance Rescaling (TVR) variance control strategy. Experiments on a 1B parameter LLaMA model demonstrate that better variance management using these techniques yields substantial improvements in downstream task performance (up to 4.6% on common pre-training benchmarks) and reduces extreme activation values, thus mitigating challenges associated with quantization and low-precision training. Our code is available at: https://github.com/bluorion-com/weight_rescaling.

Variantiebeheer via Gewichtsherschaling in LLM Pre-training

Variance Control via Weight Rescaling in LLM Pre-training

Samenvatting

Support