Parcae: Leggi di Scalabilità per Modelli Linguistici ad Anello Stabili

Abstract

Le architetture tradizionali a profondità fissa aumentano la qualità incrementando i FLOP di addestramento, tipicamente attraverso una maggiore parametrizzazione, a scapito di un footprint di memoria più elevato o di maggiori dati. Un'alternativa potenziale sono le architetture ad anello (looped), che invece aumentano i FLOP facendo passare le attivazioni attraverso un blocco di layer in un ciclo. Sebbene promettenti, le metodologie esistenti per l'addestramento di architetture ad anello possono essere instabili, soffrendo di esplosione del residuo e picchi di loss. Affrontiamo queste sfide riformulando il looping come un sistema dinamico non lineare e tempo-variante sul flusso residuo. Mediante un'approssimazione lineare di questo sistema, troviamo che l'instabilità si verifica nelle architetture ad anello esistenti a causa di grandi norme spettrali nei loro parametri di iniezione. Per affrontare questi problemi di instabilità, proponiamo Parcae, una nuova architettura ad anello stabile che vincola la norma spettrale dei parametri di iniezione tramite la discretizzazione di una parametrizzazione diagonale negativa. Di conseguenza, Parcae raggiunge una perplexity di validazione fino al 6,3% inferiore rispetto ai precedenti modelli ad anello su larga scala. Utilizzando la nostra architettura ad anello stabile, investigiamo le proprietà di scaling del looping come mezzo per migliorare la qualità aumentando i FLOP durante l'addestramento e il tempo di test. Per l'addestramento, deriviamo leggi di potenza prevedibili per scalare i FLOP mantenendo fisso il numero di parametri. Le nostre leggi di scaling iniziali suggeriscono che, dato un budget fisso di FLOP, il looping e i dati dovrebbero essere aumentati in tandem. Al tempo di test, troviamo che Parcae può utilizzare il looping per scalare il calcolo, seguendo un decadimento esponenziale saturante e prevedibile. Quando scalato fino a 1,3 miliardi di parametri, Parcae migliora la qualità CORE e Core-Extended di 2,99 e 1,18 punti rispetto a solidi baseline di Transformer sotto un budget fisso di parametri e dati, raggiungendo una qualità relativa fino all'87,5% rispetto a un Transformer di dimensioni doppie.

English

Traditional fixed-depth architectures scale quality by increasing training FLOPs, typically through increased parameterization, at the expense of a higher memory footprint, or data. A potential alternative is looped architectures, which instead increase FLOPs by sending activations through a block of layers in a loop. While promising, existing recipes for training looped architectures can be unstable, suffering from residual explosion and loss spikes. We address these challenges by recasting looping as a nonlinear time-variant dynamical system over the residual stream. Via a linear approximation to this system, we find that instability occurs in existing looped architectures as a result of large spectral norms in their injection parameters. To address these instability issues, we propose Parcae, a novel stable, looped architecture that constrains the spectral norm of the injection parameters via discretization of a negative diagonal parameterization. As a result, Parcae achieves up to 6.3% lower validation perplexity over prior large-scale looped models. Using our stable looped architecture, we investigate the scaling properties of looping as a medium to improve quality by increasing FLOPs in training and test-time. For training, we derive predictable power laws to scale FLOPs while keeping parameter count fixed. Our initial scaling laws suggest that looping and data should be increased in tandem, given a fixed FLOP budget. At test-time, we find that Parcae can use looping to scale compute, following a predictable, saturating exponential decay. When scaled up to 1.3B parameters, we find that Parcae improves CORE and Core-Extended quality by 2.99 and 1.18 points when compared to strong Transformer baselines under a fixed parameter and data budget, achieving a relative quality of up to 87.5% a Transformer twice the size.

Parcae: Leggi di Scalabilità per Modelli Linguistici ad Anello Stabili

Parcae: Scaling Laws For Stable Looped Language Models

Abstract

Support