Parcae: Законы масштабирования для стабильных циклических языковых моделей

Аннотация

Традиционные архитектуры фиксированной глубины масштабируют качество за счет увеличения FLOPs при обучении, обычно через рост параметризации, ценой большего объема памяти или данных. Потенциальной альтернативой являются зацикленные архитектуры, которые вместо этого увеличивают FLOPs, пропуская активации через блок слоев в цикле. Несмотря на перспективность, существующие методы обучения зацикленных архитектур могут быть нестабильными, страдая от взрыва остатков и скачков потерь. Мы решаем эти проблемы, переформулируя цикл как нелинейную динамическую систему с переменными во времени параметрами над остаточным потоком. С помощью линейной аппроксимации этой системы мы обнаруживаем, что нестабильность в существующих зацикленных архитектурах возникает из-за больших спектральных норм в их параметрах инжекции. Для решения этих проблем нестабильности мы предлагаем Parcae, новую стабильную зацикленную архитектуру, которая ограничивает спектральную норму параметров инжекции за счет дискретизации негативно-диагональной параметризации. В результате Parcae достигает до 6,3% более низкой перплексии на валидации по сравнению с предыдущими крупномасштабными зацикленными моделями. Используя нашу стабильную зацикленную архитектуру, мы исследуем свойства масштабирования циклов как средства повышения качества за счет увеличения FLOPs на этапах обучения и тестирования. Для обучения мы выводим предсказуемые степенные законы для масштабирования FLOPs при фиксированном количестве параметров. Наши первоначальные законы масштабирования предполагают, что при фиксированном бюджете FLOPs циклы и данные следует увеличивать совместно. На этапе тестирования мы обнаруживаем, что Parcae может использовать циклы для масштабирования вычислений, следуя предсказуемому, насыщающемуся экспоненциальному затуханию. При масштабировании до 1,3 млрд параметров Parcae улучшает качество на наборах CORE и Core-Extended на 2,99 и 1,18 пункта соответственно по сравнению с сильными Transformer-базисами при фиксированном бюджете параметров и данных, достигая относительного качества до 87,5% от Transformer вдвое большего размера.

English

Traditional fixed-depth architectures scale quality by increasing training FLOPs, typically through increased parameterization, at the expense of a higher memory footprint, or data. A potential alternative is looped architectures, which instead increase FLOPs by sending activations through a block of layers in a loop. While promising, existing recipes for training looped architectures can be unstable, suffering from residual explosion and loss spikes. We address these challenges by recasting looping as a nonlinear time-variant dynamical system over the residual stream. Via a linear approximation to this system, we find that instability occurs in existing looped architectures as a result of large spectral norms in their injection parameters. To address these instability issues, we propose Parcae, a novel stable, looped architecture that constrains the spectral norm of the injection parameters via discretization of a negative diagonal parameterization. As a result, Parcae achieves up to 6.3% lower validation perplexity over prior large-scale looped models. Using our stable looped architecture, we investigate the scaling properties of looping as a medium to improve quality by increasing FLOPs in training and test-time. For training, we derive predictable power laws to scale FLOPs while keeping parameter count fixed. Our initial scaling laws suggest that looping and data should be increased in tandem, given a fixed FLOP budget. At test-time, we find that Parcae can use looping to scale compute, following a predictable, saturating exponential decay. When scaled up to 1.3B parameters, we find that Parcae improves CORE and Core-Extended quality by 2.99 and 1.18 points when compared to strong Transformer baselines under a fixed parameter and data budget, achieving a relative quality of up to 87.5% a Transformer twice the size.

Parcae: Законы масштабирования для стабильных циклических языковых моделей

Parcae: Scaling Laws For Stable Looped Language Models

Аннотация

Support