Proxy su piccola scala per le instabilità nell'addestramento su larga scala dei Transformer
Small-scale proxies for large-scale Transformer training instabilities
September 25, 2023
Autori: Mitchell Wortsman, Peter J. Liu, Lechao Xiao, Katie Everett, Alex Alemi, Ben Adlam, John D. Co-Reyes, Izzeddin Gur, Abhishek Kumar, Roman Novak, Jeffrey Pennington, Jascha Sohl-dickstein, Kelvin Xu, Jaehoon Lee, Justin Gilmer, Simon Kornblith
cs.AI
Abstract
I team che hanno addestrato modelli di grandi dimensioni basati su Transformer hanno riportato instabilità durante l'addestramento su larga scala, che non si manifestavano quando si utilizzavano gli stessi iperparametri su scale più ridotte. Sebbene le cause di tali instabilità siano di interesse scientifico, la quantità di risorse necessarie per riprodurle ha reso difficile l'indagine. In questo lavoro, cerchiamo modi per riprodurre e studiare la stabilità e l'instabilità dell'addestramento su scale più piccole. In primo luogo, ci concentriamo su due fonti di instabilità durante l'addestramento descritte in lavori precedenti: la crescita dei logit negli strati di attenzione (Dehghani et al., 2023) e la divergenza dei logit di output dalle probabilità logaritmiche (Chowdhery et al., 2022). Misurando la relazione tra tasso di apprendimento e perdita su diverse scale, dimostriamo che queste instabilità compaiono anche in modelli piccoli quando si addestra con tassi di apprendimento elevati, e che le mitigazioni precedentemente impiegate su larga scala sono ugualmente efficaci in questo regime. Ciò ci spinge a indagare fino a che punto altri interventi noti sull'ottimizzatore e sul modello influenzano la sensibilità della perdita finale alle variazioni del tasso di apprendimento. A tal fine, studiamo metodi come il warm-up, il decadimento dei pesi e il muParam (Yang et al., 2022), e combiniamo tecniche per addestrare modelli piccoli che raggiungono perdite simili su ordini di grandezza di variazione del tasso di apprendimento. Infine, per concludere la nostra esplorazione, studiamo due casi in cui le instabilità possono essere previste prima che si manifestino, esaminando il comportamento di scalabilità delle norme delle attivazioni e dei gradienti del modello.
English
Teams that have trained large Transformer-based models have reported training
instabilities at large scale that did not appear when training with the same
hyperparameters at smaller scales. Although the causes of such instabilities
are of scientific interest, the amount of resources required to reproduce them
has made investigation difficult. In this work, we seek ways to reproduce and
study training stability and instability at smaller scales. First, we focus on
two sources of training instability described in previous work: the growth of
logits in attention layers (Dehghani et al., 2023) and divergence of the output
logits from the log probabilities (Chowdhery et al., 2022). By measuring the
relationship between learning rate and loss across scales, we show that these
instabilities also appear in small models when training at high learning rates,
and that mitigations previously employed at large scales are equally effective
in this regime. This prompts us to investigate the extent to which other known
optimizer and model interventions influence the sensitivity of the final loss
to changes in the learning rate. To this end, we study methods such as warm-up,
weight decay, and the muParam (Yang et al., 2022), and combine techniques to
train small models that achieve similar losses across orders of magnitude of
learning rate variation. Finally, to conclude our exploration we study two
cases where instabilities can be predicted before they emerge by examining the
scaling behavior of model activation and gradient norms.