ChatPaper.aiChatPaper

Kleine Maßstabsproxys für Trainingsinstabilitäten in großskaligen Transformer-Modellen

Small-scale proxies for large-scale Transformer training instabilities

September 25, 2023
Autoren: Mitchell Wortsman, Peter J. Liu, Lechao Xiao, Katie Everett, Alex Alemi, Ben Adlam, John D. Co-Reyes, Izzeddin Gur, Abhishek Kumar, Roman Novak, Jeffrey Pennington, Jascha Sohl-dickstein, Kelvin Xu, Jaehoon Lee, Justin Gilmer, Simon Kornblith
cs.AI

Zusammenfassung

Teams, die große Transformer-basierte Modelle trainiert haben, berichteten von Trainingsinstabilitäten in großem Maßstab, die bei der Verwendung der gleichen Hyperparameter in kleinerem Maßstab nicht auftraten. Obwohl die Ursachen solcher Instabilitäten von wissenschaftlichem Interesse sind, hat der hohe Ressourcenbedarf, der zu ihrer Reproduktion erforderlich ist, die Untersuchung erschwert. In dieser Arbeit suchen wir nach Möglichkeiten, Trainingsstabilität und -instabilität in kleinerem Maßstab zu reproduzieren und zu untersuchen. Zunächst konzentrieren wir uns auf zwei Quellen von Trainingsinstabilitäten, die in früheren Arbeiten beschrieben wurden: das Wachstum von Logits in Attention-Schichten (Dehghani et al., 2023) und die Divergenz der Ausgabe-Logits von den Log-Wahrscheinlichkeiten (Chowdhery et al., 2022). Durch die Messung der Beziehung zwischen Lernrate und Verlust über verschiedene Skalen hinweg zeigen wir, dass diese Instabilitäten auch in kleinen Modellen auftreten, wenn mit hohen Lernraten trainiert wird, und dass die zuvor in großem Maßstab eingesetzten Gegenmaßnahmen in diesem Bereich ebenso wirksam sind. Dies veranlasst uns zu untersuchen, inwieweit andere bekannte Optimierer- und Modelleingriffe die Empfindlichkeit des endgültigen Verlusts gegenüber Änderungen der Lernrate beeinflussen. Zu diesem Zweck untersuchen wir Methoden wie Warm-up, Gewichtsabnahme und den muParam (Yang et al., 2022) und kombinieren Techniken, um kleine Modelle zu trainieren, die ähnliche Verluste über Größenordnungen von Lernratenvariationen hinweg erreichen. Abschließend untersuchen wir zwei Fälle, in denen Instabilitäten vor ihrem Auftreten vorhergesagt werden können, indem wir das Skalierungsverhalten von Modellaktivierungs- und Gradientennormen analysieren.
English
Teams that have trained large Transformer-based models have reported training instabilities at large scale that did not appear when training with the same hyperparameters at smaller scales. Although the causes of such instabilities are of scientific interest, the amount of resources required to reproduce them has made investigation difficult. In this work, we seek ways to reproduce and study training stability and instability at smaller scales. First, we focus on two sources of training instability described in previous work: the growth of logits in attention layers (Dehghani et al., 2023) and divergence of the output logits from the log probabilities (Chowdhery et al., 2022). By measuring the relationship between learning rate and loss across scales, we show that these instabilities also appear in small models when training at high learning rates, and that mitigations previously employed at large scales are equally effective in this regime. This prompts us to investigate the extent to which other known optimizer and model interventions influence the sensitivity of the final loss to changes in the learning rate. To this end, we study methods such as warm-up, weight decay, and the muParam (Yang et al., 2022), and combine techniques to train small models that achieve similar losses across orders of magnitude of learning rate variation. Finally, to conclude our exploration we study two cases where instabilities can be predicted before they emerge by examining the scaling behavior of model activation and gradient norms.
PDF212December 15, 2024