Parcae : Lois d'échelle pour les modèles de langage à boucle stable

Résumé

Les architectures traditionnelles à profondeur fixe améliorent leur qualité en augmentant les FLOPs d’entraînement, généralement par une paramétrisation accrue, au détriment de l’empreinte mémoire ou des données. Une alternative potentielle réside dans les architectures bouclées, qui augmentent les FLOPs en faisant circuler les activations à travers un bloc de couches en boucle. Bien que prometteuses, les méthodes existantes pour entraîner ces architectures peuvent être instables, souffrant d’explosion des résidus et de pics de perte. Nous abordons ces défis en reformulant la boucle comme un système dynamique non linéaire et variant dans le temps opérant sur le flux résiduel. Par une approximation linéaire de ce système, nous constatons que l’instabilité survient dans les architectures bouclées existantes en raison de normes spectrales élevées dans leurs paramètres d’injection. Pour résoudre ces problèmes, nous proposons Parcae, une nouvelle architecture bouclée stable qui contraint la norme spectrale des paramètres d’injection via une discrétisation d’une paramétrisation diagonale négative. Ainsi, Parcae atteint jusqu’à 6,3 % de perplexité de validation en moins par rapport aux précédents modèles bouclés à grande échelle. En utilisant notre architecture bouclée stable, nous étudions les propriétés de mise à l’échelle du bouclage comme moyen d’améliorer la qualité en augmentant les FLOPs lors de l’entraînement et de l’inférence. Pour l’entraînement, nous dérivons des lois de puissance prévisibles pour ajuster les FLOPs tout en maintenant fixe le nombre de paramètres. Nos premières lois d’échelle suggèrent que le bouclage et les données doivent être augmentés conjointement pour un budget FLOPs fixe. Lors de l’inférence, nous constatons que Parcae peut utiliser le bouclage pour moduler le calcul, suivant une décroissance exponentielle saturante prévisible. Lorsqu’elle est mise à l’échelle jusqu’à 1,3 milliard de paramètres, Parcae améliore les scores CORE et Core-Extended de 2,99 et 1,18 points respectivement par rapport à des Transformers de référence solides, avec un budget fixe en paramètres et données, atteignant une qualité relative allant jusqu’à 87,5 % de celle d’un Transformer deux fois plus grand.

English

Traditional fixed-depth architectures scale quality by increasing training FLOPs, typically through increased parameterization, at the expense of a higher memory footprint, or data. A potential alternative is looped architectures, which instead increase FLOPs by sending activations through a block of layers in a loop. While promising, existing recipes for training looped architectures can be unstable, suffering from residual explosion and loss spikes. We address these challenges by recasting looping as a nonlinear time-variant dynamical system over the residual stream. Via a linear approximation to this system, we find that instability occurs in existing looped architectures as a result of large spectral norms in their injection parameters. To address these instability issues, we propose Parcae, a novel stable, looped architecture that constrains the spectral norm of the injection parameters via discretization of a negative diagonal parameterization. As a result, Parcae achieves up to 6.3% lower validation perplexity over prior large-scale looped models. Using our stable looped architecture, we investigate the scaling properties of looping as a medium to improve quality by increasing FLOPs in training and test-time. For training, we derive predictable power laws to scale FLOPs while keeping parameter count fixed. Our initial scaling laws suggest that looping and data should be increased in tandem, given a fixed FLOP budget. At test-time, we find that Parcae can use looping to scale compute, following a predictable, saturating exponential decay. When scaled up to 1.3B parameters, we find that Parcae improves CORE and Core-Extended quality by 2.99 and 1.18 points when compared to strong Transformer baselines under a fixed parameter and data budget, achieving a relative quality of up to 87.5% a Transformer twice the size.

Parcae : Lois d'échelle pour les modèles de langage à boucle stable

Parcae: Scaling Laws For Stable Looped Language Models

Résumé

Support