Parcae: Skalierungsgesetze für stabile zyklische Sprachmodelle

Zusammenfassung

Herkömmliche Architekturen mit fester Tiefe skalieren die Qualität durch Erhöhung der Trainings-FLOPs, typischerweise über verstärkte Parametrisierung, auf Kosten eines höheren Speicherbedarfs oder geringerer Datenmenge. Eine potenzielle Alternative sind geloopte Architekturen, die FLOPs erhöhen, indem sie Aktivierungen in einer Schleife durch einen Block von Schichten leiten. Obwohl vielversprechend, können bestehende Trainingsverfahren für geloopte Architekturen instabil sein und unter Explosion der Residuen und Verlustspitzen leiden. Wir adressieren diese Herausforderungen, indem wir Looping als ein nichtlineares zeitvariantes dynamisches System über den Residualstrom umformulieren. Mittels einer linearen Approximation dieses Systems finden wir, dass Instabilität in bestehenden geloopten Architekturen als Folge großer Spektralnormen in ihren Injektionsparametern auftritt. Um diese Stabilitätsprobleme zu lösen, schlagen wir Parcae vor, eine neuartige, stabile geloopte Architektur, die die Spektralnorm der Injektionsparameter durch Diskretisierung einer negativ-diagonalen Parametrisierung beschränkt. Infolgedessen erzielt Parcae bis zu 6,3 % geringere Validierungs-Perplexität gegenüber früheren großskaligen geloopten Modellen. Unter Verwendung unserer stabilen geloopten Architektur untersuchen wir die Skalierungseigenschaften von Looping als Mittel zur Qualitätsverbesserung durch Erhöhung der FLOPs während Training und Testzeit. Für das Training leiten wir vorhersagbare Potenzgesetze ab, um FLOPs bei festgehaltener Parameteranzahl zu skalieren. Unsere initialen Skalierungsgesetze legen nahe, dass Looping und Datenmenge bei gegebenem FLOP-Budget gemeinsam erhöht werden sollten. Zur Testzeit stellen wir fest, dass Parcae Looping zur Skalierung der Rechenleistung nutzen kann, wobei ein vorhersagbarer, sättigender exponentieller Abfall beobachtet wird. Bei Skalierung auf 1,3B Parameter zeigt Parcae im Vergleich zu starken Transformer-Baselines unter festem Parameter- und Datenbudget Verbesserungen der CORE- und Core-Extended-Qualität um 2,99 bzw. 1,18 Punkte und erreicht eine relative Qualität von bis zu 87,5 % eines Transformers mit doppelter Größe.

English

Traditional fixed-depth architectures scale quality by increasing training FLOPs, typically through increased parameterization, at the expense of a higher memory footprint, or data. A potential alternative is looped architectures, which instead increase FLOPs by sending activations through a block of layers in a loop. While promising, existing recipes for training looped architectures can be unstable, suffering from residual explosion and loss spikes. We address these challenges by recasting looping as a nonlinear time-variant dynamical system over the residual stream. Via a linear approximation to this system, we find that instability occurs in existing looped architectures as a result of large spectral norms in their injection parameters. To address these instability issues, we propose Parcae, a novel stable, looped architecture that constrains the spectral norm of the injection parameters via discretization of a negative diagonal parameterization. As a result, Parcae achieves up to 6.3% lower validation perplexity over prior large-scale looped models. Using our stable looped architecture, we investigate the scaling properties of looping as a medium to improve quality by increasing FLOPs in training and test-time. For training, we derive predictable power laws to scale FLOPs while keeping parameter count fixed. Our initial scaling laws suggest that looping and data should be increased in tandem, given a fixed FLOP budget. At test-time, we find that Parcae can use looping to scale compute, following a predictable, saturating exponential decay. When scaled up to 1.3B parameters, we find that Parcae improves CORE and Core-Extended quality by 2.99 and 1.18 points when compared to strong Transformer baselines under a fixed parameter and data budget, achieving a relative quality of up to 87.5% a Transformer twice the size.

Parcae: Skalierungsgesetze für stabile zyklische Sprachmodelle

Parcae: Scaling Laws For Stable Looped Language Models

Zusammenfassung

Support