Parcae: Leis de Escala para Modelos de Linguagem em Loop Estáveis

Resumo

As arquiteturas tradicionais de profundidade fixa escalam a qualidade aumentando os FLOPS de treinamento, tipicamente através de maior parametrização, à custa de uma maior pegada de memória ou de dados. Uma alternativa potencial são as arquiteturas em loop, que, em vez disso, aumentam os FLOPS enviando ativações através de um bloco de camadas em um ciclo. Embora promissoras, as metodologias existentes para treinar arquiteturas em loop podem ser instáveis, sofrendo com explosão de resíduos e picos de perda. Nós abordamos esses desafios reformulando o looping como um sistema dinâmico não linear e variante no tempo sobre o fluxo residual. Através de uma aproximação linear deste sistema, descobrimos que a instabilidade ocorre nas arquiteturas em loop existentes como resultado de grandes normas espectrais nos seus parâmetros de injeção. Para resolver esses problemas de instabilidade, propomos o Parcae, uma nova arquitetura em loop estável que restringe a norma espectral dos parâmetros de injeção via discretização de uma parametrização diagonal negativa. Como resultado, o Parcae alcança até 6,3% menos perplexidade de validação em comparação com modelos anteriores em loop de larga escala. Usando nossa arquitetura em loop estável, investigamos as propriedades de escalonamento do looping como um meio para melhorar a qualidade aumentando os FLOPS no treinamento e no tempo de teste. Para o treinamento, derivamos leis de potência previsíveis para dimensionar os FLOPS mantendo a contagem de parâmetros fixa. Nossas leis de escalonamento iniciais sugerem que o looping e os dados devem ser aumentados em conjunto, dado um orçamento fixo de FLOPS. No tempo de teste, descobrimos que o Parcae pode usar o looping para escalar o cálculo, seguindo um decaimento exponencial saturante e previsível. Quando escalado para 1,3 bilhão de parâmetros, descobrimos que o Parcae melhora a qualidade CORE e Core-Extended em 2,99 e 1,18 pontos quando comparado com bases fortes de Transformer sob um orçamento fixo de parâmetros e dados, alcançando uma qualidade relativa de até 87,5% de um Transformer com o dobro do tamanho.

English

Traditional fixed-depth architectures scale quality by increasing training FLOPs, typically through increased parameterization, at the expense of a higher memory footprint, or data. A potential alternative is looped architectures, which instead increase FLOPs by sending activations through a block of layers in a loop. While promising, existing recipes for training looped architectures can be unstable, suffering from residual explosion and loss spikes. We address these challenges by recasting looping as a nonlinear time-variant dynamical system over the residual stream. Via a linear approximation to this system, we find that instability occurs in existing looped architectures as a result of large spectral norms in their injection parameters. To address these instability issues, we propose Parcae, a novel stable, looped architecture that constrains the spectral norm of the injection parameters via discretization of a negative diagonal parameterization. As a result, Parcae achieves up to 6.3% lower validation perplexity over prior large-scale looped models. Using our stable looped architecture, we investigate the scaling properties of looping as a medium to improve quality by increasing FLOPs in training and test-time. For training, we derive predictable power laws to scale FLOPs while keeping parameter count fixed. Our initial scaling laws suggest that looping and data should be increased in tandem, given a fixed FLOP budget. At test-time, we find that Parcae can use looping to scale compute, following a predictable, saturating exponential decay. When scaled up to 1.3B parameters, we find that Parcae improves CORE and Core-Extended quality by 2.99 and 1.18 points when compared to strong Transformer baselines under a fixed parameter and data budget, achieving a relative quality of up to 87.5% a Transformer twice the size.

Parcae: Leis de Escala para Modelos de Linguagem em Loop Estáveis

Parcae: Scaling Laws For Stable Looped Language Models

Resumo

Support