Aggiungi più strati in modo diverso: Addestramento ad alto rango attraverso aggiornamenti a basso rango
Stack More Layers Differently: High-Rank Training Through Low-Rank Updates
July 11, 2023
Autori: Vladislav Lialin, Namrata Shivagunde, Sherin Muckatira, Anna Rumshisky
cs.AI
Abstract
Nonostante il dominio e l'efficacia del ridimensionamento, che ha portato a reti di grandi dimensioni con centinaia di miliardi di parametri, la necessità di addestrare modelli sovraparametrizzati rimane poco compresa, e approcci alternativi non rendono necessariamente più economico l'addestramento di modelli ad alte prestazioni. In questo articolo, esploriamo tecniche di addestramento a basso rango come approccio alternativo per addestrare grandi reti neurali. Introduciamo un nuovo metodo chiamato ReLoRA, che utilizza aggiornamenti a basso rango per addestrare reti ad alto rango. Applichiamo ReLoRA al pre-addestramento di modelli linguistici basati su transformer con fino a 350 milioni di parametri e dimostriamo prestazioni comparabili a quelle dell'addestramento regolare di reti neurali. Inoltre, osserviamo che l'efficienza di ReLoRA aumenta con la dimensione del modello, rendendolo un approccio promettente per addestrare in modo efficiente reti con miliardi di parametri. I nostri risultati gettano luce sul potenziale delle tecniche di addestramento a basso rango e sulle loro implicazioni per le leggi di ridimensionamento.
English
Despite the dominance and effectiveness of scaling, resulting in large
networks with hundreds of billions of parameters, the necessity to train
overparametrized models remains poorly understood, and alternative approaches
do not necessarily make it cheaper to train high-performance models. In this
paper, we explore low-rank training techniques as an alternative approach to
training large neural networks. We introduce a novel method called ReLoRA,
which utilizes low-rank updates to train high-rank networks. We apply ReLoRA to
pre-training transformer language models with up to 350M parameters and
demonstrate comparable performance to regular neural network training.
Furthermore, we observe that the efficiency of ReLoRA increases with model
size, making it a promising approach for training multi-billion-parameter
networks efficiently. Our findings shed light on the potential of low-rank
training techniques and their implications for scaling laws.