Parcae: Leyes de Escalado para Modelos de Lenguaje con Bucles Estables

Resumen

Las arquitecturas tradicionales de profundidad fija escalan la calidad aumentando los FLOPS de entrenamiento, típicamente mediante una mayor parametrización, a costa de una mayor huella de memoria o de datos. Una alternativa potencial son las arquitecturas en bucle, que en cambio aumentan los FLOPS haciendo pasar las activaciones por un bloque de capas en un ciclo. Si bien son prometedoras, las técnicas existentes para entrenar arquitecturas en bucle pueden ser inestables, sufriendo de explosión de residuos y picos en la pérdida. Abordamos estos desafíos reformulando el bucle como un sistema dinámico no lineal y variante en el tiempo sobre el flujo residual. Mediante una aproximación lineal a este sistema, encontramos que la inestabilidad ocurre en las arquitecturas en bucle existentes como resultado de grandes normas espectrales en sus parámetros de inyección. Para abordar estos problemas de inestabilidad, proponemos Parcae, una novedosa arquitectura en bucle estable que restringe la norma espectral de los parámetros de inyección mediante la discretización de una parametrización diagonal negativa. Como resultado, Parcae logra hasta un 6.3% menos de perplejidad en validación que los modelos previos en bucle a gran escala. Utilizando nuestra arquitectura en bucle estable, investigamos las propiedades de escalado del bucle como medio para mejorar la calidad aumentando los FLOPS en el entrenamiento y en el momento de la prueba. Para el entrenamiento, derivamos leyes de potencia predecibles para escalar los FLOPS manteniendo fijo el número de parámetros. Nuestras leyes de escalado iniciales sugieren que el bucle y los datos deben aumentarse conjuntamente, dado un presupuesto fijo de FLOPS. En el momento de la prueba, encontramos que Parcae puede usar el bucle para escalar el cómputo, siguiendo un decaimiento exponencial saturable y predecible. Cuando se escala hasta 1300 millones de parámetros, encontramos que Parcae mejora la calidad en CORE y Core-Extended en 2.99 y 1.18 puntos respectivamente, en comparación con fuentes líneas de base de Transformer bajo un presupuesto fijo de parámetros y datos, alcanzando una calidad relativa de hasta el 87.5% de un Transformer del doble de tamaño.

English

Traditional fixed-depth architectures scale quality by increasing training FLOPs, typically through increased parameterization, at the expense of a higher memory footprint, or data. A potential alternative is looped architectures, which instead increase FLOPs by sending activations through a block of layers in a loop. While promising, existing recipes for training looped architectures can be unstable, suffering from residual explosion and loss spikes. We address these challenges by recasting looping as a nonlinear time-variant dynamical system over the residual stream. Via a linear approximation to this system, we find that instability occurs in existing looped architectures as a result of large spectral norms in their injection parameters. To address these instability issues, we propose Parcae, a novel stable, looped architecture that constrains the spectral norm of the injection parameters via discretization of a negative diagonal parameterization. As a result, Parcae achieves up to 6.3% lower validation perplexity over prior large-scale looped models. Using our stable looped architecture, we investigate the scaling properties of looping as a medium to improve quality by increasing FLOPs in training and test-time. For training, we derive predictable power laws to scale FLOPs while keeping parameter count fixed. Our initial scaling laws suggest that looping and data should be increased in tandem, given a fixed FLOP budget. At test-time, we find that Parcae can use looping to scale compute, following a predictable, saturating exponential decay. When scaled up to 1.3B parameters, we find that Parcae improves CORE and Core-Extended quality by 2.99 and 1.18 points when compared to strong Transformer baselines under a fixed parameter and data budget, achieving a relative quality of up to 87.5% a Transformer twice the size.

Parcae: Leyes de Escalado para Modelos de Lenguaje con Bucles Estables

Parcae: Scaling Laws For Stable Looped Language Models

Resumen

Support