Kleinschalige proxies voor grootschalige trainingsinstabiliteiten in Transformers
Small-scale proxies for large-scale Transformer training instabilities
September 25, 2023
Auteurs: Mitchell Wortsman, Peter J. Liu, Lechao Xiao, Katie Everett, Alex Alemi, Ben Adlam, John D. Co-Reyes, Izzeddin Gur, Abhishek Kumar, Roman Novak, Jeffrey Pennington, Jascha Sohl-dickstein, Kelvin Xu, Jaehoon Lee, Justin Gilmer, Simon Kornblith
cs.AI
Samenvatting
Teams die grote Transformer-gebaseerde modellen hebben getraind, hebben trainingsinstabiliteiten gerapporteerd op grote schaal die niet voorkwamen bij het trainen met dezelfde hyperparameters op kleinere schaal. Hoewel de oorzaken van dergelijke instabiliteiten wetenschappelijk interessant zijn, heeft de hoeveelheid benodigde bronnen om ze te reproduceren onderzoek bemoeilijkt. In dit werk zoeken we manieren om trainingsstabiliteit en -instabiliteit op kleinere schaal te reproduceren en te bestuderen. Eerst richten we ons op twee bronnen van trainingsinstabiliteit die in eerder werk zijn beschreven: de groei van logits in aandachtslagen (Dehghani et al., 2023) en de divergentie van de uitvoerlogits van de log-kansen (Chowdhery et al., 2022). Door de relatie tussen leerrate en verlies over verschillende schalen te meten, laten we zien dat deze instabiliteiten ook voorkomen in kleine modellen wanneer wordt getraind met hoge leerrates, en dat mitigaties die eerder op grote schaal werden toegepast even effectief zijn in dit regime. Dit zet ons ertoe aan om te onderzoeken in hoeverre andere bekende optimizer- en modelinterventies de gevoeligheid van het uiteindelijke verlies voor veranderingen in de leerrate beïnvloeden. Hiertoe bestuderen we methoden zoals warm-up, gewichtsverval en de muParam (Yang et al., 2022), en combineren we technieken om kleine modellen te trainen die vergelijkbare verliezen behalen over meerdere ordes van grootte van leerratevariatie. Tot slot, om onze verkenning af te ronden, bestuderen we twee gevallen waarin instabiliteiten voorspeld kunnen worden voordat ze optreden, door het schaalgedrag van modelactivatie- en gradientnormen te onderzoeken.
English
Teams that have trained large Transformer-based models have reported training
instabilities at large scale that did not appear when training with the same
hyperparameters at smaller scales. Although the causes of such instabilities
are of scientific interest, the amount of resources required to reproduce them
has made investigation difficult. In this work, we seek ways to reproduce and
study training stability and instability at smaller scales. First, we focus on
two sources of training instability described in previous work: the growth of
logits in attention layers (Dehghani et al., 2023) and divergence of the output
logits from the log probabilities (Chowdhery et al., 2022). By measuring the
relationship between learning rate and loss across scales, we show that these
instabilities also appear in small models when training at high learning rates,
and that mitigations previously employed at large scales are equally effective
in this regime. This prompts us to investigate the extent to which other known
optimizer and model interventions influence the sensitivity of the final loss
to changes in the learning rate. To this end, we study methods such as warm-up,
weight decay, and the muParam (Yang et al., 2022), and combine techniques to
train small models that achieve similar losses across orders of magnitude of
learning rate variation. Finally, to conclude our exploration we study two
cases where instabilities can be predicted before they emerge by examining the
scaling behavior of model activation and gradient norms.