ChatPaper.aiChatPaper

Маломасштабные аналоги нестабильностей при обучении крупных трансформеров

Small-scale proxies for large-scale Transformer training instabilities

September 25, 2023
Авторы: Mitchell Wortsman, Peter J. Liu, Lechao Xiao, Katie Everett, Alex Alemi, Ben Adlam, John D. Co-Reyes, Izzeddin Gur, Abhishek Kumar, Roman Novak, Jeffrey Pennington, Jascha Sohl-dickstein, Kelvin Xu, Jaehoon Lee, Justin Gilmer, Simon Kornblith
cs.AI

Аннотация

Команды, обучавшие крупные модели на основе архитектуры Transformer, сообщали о нестабильностях в процессе обучения на больших масштабах, которые не наблюдались при использовании тех же гиперпараметров на меньших масштабах. Хотя причины таких нестабильностей представляют научный интерес, объем ресурсов, необходимых для их воспроизведения, затрудняет их исследование. В данной работе мы ищем способы воспроизведения и изучения стабильности и нестабильности обучения на меньших масштабах. Сначала мы сосредотачиваемся на двух источниках нестабильности обучения, описанных в предыдущих работах: росте значений logits в слоях внимания (Dehghani et al., 2023) и расхождении выходных logits с логарифмическими вероятностями (Chowdhery et al., 2022). Измеряя зависимость между скоростью обучения и потерей на разных масштабах, мы показываем, что эти нестабильности также проявляются в небольших моделях при обучении с высокой скоростью обучения, и что методы устранения, ранее применявшиеся на больших масштабах, одинаково эффективны и в этом режиме. Это побуждает нас исследовать, в какой степени другие известные вмешательства в оптимизатор и модель влияют на чувствительность итоговой потери к изменениям скорости обучения. С этой целью мы изучаем такие методы, как разогрев (warm-up), затухание весов (weight decay) и muParam (Yang et al., 2022), и комбинируем техники для обучения небольших моделей, которые достигают схожих потерь при изменении скорости обучения на порядки величины. Наконец, завершая наше исследование, мы изучаем два случая, когда нестабильности можно предсказать до их появления, анализируя масштабирование норм активаций и градиентов модели.
English
Teams that have trained large Transformer-based models have reported training instabilities at large scale that did not appear when training with the same hyperparameters at smaller scales. Although the causes of such instabilities are of scientific interest, the amount of resources required to reproduce them has made investigation difficult. In this work, we seek ways to reproduce and study training stability and instability at smaller scales. First, we focus on two sources of training instability described in previous work: the growth of logits in attention layers (Dehghani et al., 2023) and divergence of the output logits from the log probabilities (Chowdhery et al., 2022). By measuring the relationship between learning rate and loss across scales, we show that these instabilities also appear in small models when training at high learning rates, and that mitigations previously employed at large scales are equally effective in this regime. This prompts us to investigate the extent to which other known optimizer and model interventions influence the sensitivity of the final loss to changes in the learning rate. To this end, we study methods such as warm-up, weight decay, and the muParam (Yang et al., 2022), and combine techniques to train small models that achieve similar losses across orders of magnitude of learning rate variation. Finally, to conclude our exploration we study two cases where instabilities can be predicted before they emerge by examining the scaling behavior of model activation and gradient norms.
PDF212December 15, 2024