Parcae: Schaalwetten voor Gestabiliseerde Geluspte Taalmodellen

Samenvatting

Traditionele architecturen met vaste diepte schalen kwaliteit door het verhogen van de trainings-FLOPs, meestal via meer parametrisering, ten koste van een hoger geheugengebruik of meer data. Een mogelijk alternatief zijn geloopte architecturen, die FLOPs verhogen door activaties in een lus door een blok lagen te sturen. Hoewel veelbelovend, kunnen bestaande recepten voor het trainen van geloopte architecturen onstabiel zijn, met problemen zoals residuele explosie en verliespieken. Wij pakken deze uitdagingen aan door looping te herformuleren als een niet-lineair tijdvariant dynamisch systeem over de residuele stroom. Via een lineaire benadering van dit systeem stellen we vast dat instabiliteit in bestaande geloopte architecturen optreedt als gevolg van grote spectrale normen in hun injectieparameters. Om deze stabiliteitsproblemen aan te pakken, stellen we Parcae voor, een nieuwe stabiele, geloopte architectuur die de spectrale norm van de injectieparameters beperkt via discretisatie van een negatieve diagonale parametrisatie. Hierdoor behaalt Parcae tot 6,3% lagere validatieperplexiteit ten opzichte van eerdere grootschalige geloopte modellen. Met behulp van onze stabiele geloopte architectuur onderzoeken we de schaaleigenschappen van looping als medium om kwaliteit te verbeteren door FLOPs te verhogen tijdens training en testtijd. Voor de training leiden we voorspelbare machtswetten af om FLOPs te schalen terwijl het aantal parameters constant blijft. Onze initiële schaalwetten suggereren dat looping en data in tandem moeten worden verhoogd, gegeven een vast FLOP-budget. Tijdens testtijd stellen we vast dat Parcae looping kan gebruiken om rekenkracht te schalen, volgens een voorspelbaar, verzadigend exponentieel verval. Bij opschaling naar 1,3B parameters verbetert Parcae de CORE- en Core-Extended-kwaliteit met respectievelijk 2,99 en 1,18 punten in vergelijking met sterke Transformer-baselines onder een vast parameter- en databudget, waarbij het een relatieve kwaliteit bereikt van tot 87,5% van een Transformer van het dubbele formaat.

English

Traditional fixed-depth architectures scale quality by increasing training FLOPs, typically through increased parameterization, at the expense of a higher memory footprint, or data. A potential alternative is looped architectures, which instead increase FLOPs by sending activations through a block of layers in a loop. While promising, existing recipes for training looped architectures can be unstable, suffering from residual explosion and loss spikes. We address these challenges by recasting looping as a nonlinear time-variant dynamical system over the residual stream. Via a linear approximation to this system, we find that instability occurs in existing looped architectures as a result of large spectral norms in their injection parameters. To address these instability issues, we propose Parcae, a novel stable, looped architecture that constrains the spectral norm of the injection parameters via discretization of a negative diagonal parameterization. As a result, Parcae achieves up to 6.3% lower validation perplexity over prior large-scale looped models. Using our stable looped architecture, we investigate the scaling properties of looping as a medium to improve quality by increasing FLOPs in training and test-time. For training, we derive predictable power laws to scale FLOPs while keeping parameter count fixed. Our initial scaling laws suggest that looping and data should be increased in tandem, given a fixed FLOP budget. At test-time, we find that Parcae can use looping to scale compute, following a predictable, saturating exponential decay. When scaled up to 1.3B parameters, we find that Parcae improves CORE and Core-Extended quality by 2.99 and 1.18 points when compared to strong Transformer baselines under a fixed parameter and data budget, achieving a relative quality of up to 87.5% a Transformer twice the size.

Parcae: Schaalwetten voor Gestabiliseerde Geluspte Taalmodellen

Parcae: Scaling Laws For Stable Looped Language Models

Samenvatting

Support