Ontsluiten van feature learning in Gated Delta Networks op schaal

Samenvatting

Het trainen en schalen van Grote Taalmodellen vereist enorme computationele middelen, wat aanleiding geeft tot zowel efficiënte sub-kwadratische architecturen als principiële methoden voor hyperparameterafstemming. Hoewel de Maximale Update Parametrisatie (μP) zero-shot hyperparameteroverdracht voor standaard Transformers mogelijk heeft gemaakt, blijft de uitbreiding ervan naar lineaire modellen, met name die met gestructureerde toestandsovergangen en complexe architecturen, grotendeels onverkend. Door rigoureus coördinaatgrootte-schattingen te propageren door de voorwaartse doorgang, poortmechanismen en recurrente toestandsdynamica, leiden we de schalingsregels voor Gated Delta Netwerk af. Experimenten met pre-training van taalmodellen bevestigen dat onze configuraties stabiele leersnelheidsoverdracht over modelbreedtes mogelijk maken onder zowel AdamW als SGD, terwijl de standaard parametrisatie niet slaagt in overdracht, wat de juistheid en het praktische nut van onze analyse bevestigt.

English

Training and scaling Large Language Models demand enormous computational resources, motivating both efficient sub-quadratic architectures and principled hyperparameter tuning methods. While the Maximal Update Parametrization (μP) has enabled zero-shot hyperparameter transfer for standard Transformers, its extension to linear models, particularly those with structured state transitions and complicated architectures, remains largely unexplored. By rigorously propagating coordinate-size estimates through the forward pass, gating mechanisms, and recurrent state dynamics, we derive the scaling rules for Gated Delta Network. Experiments on language-model pre-training confirm that our configurations enable stable learning-rate transfer across model widths under both AdamW and SGD, whereas standard parametrization fails to transfer, validating the correctness and practical utility of our analysis.