Meer Lagen Anders Stapelen: Hoog-Rang Training via Laag-Rang Updates
Stack More Layers Differently: High-Rank Training Through Low-Rank Updates
July 11, 2023
Auteurs: Vladislav Lialin, Namrata Shivagunde, Sherin Muckatira, Anna Rumshisky
cs.AI
Samenvatting
Ondanks de dominantie en effectiviteit van schaling, wat resulteert in grote netwerken met honderden miljarden parameters, blijft de noodzaak om overgeparametriseerde modellen te trainen slecht begrepen, en alternatieve benaderingen maken het niet noodzakelijkerwijs goedkoper om hoogpresterende modellen te trainen. In dit artikel onderzoeken we low-rank trainingsmethoden als een alternatieve benadering voor het trainen van grote neurale netwerken. We introduceren een nieuwe methode genaamd ReLoRA, die gebruikmaakt van low-rank updates om high-rank netwerken te trainen. We passen ReLoRA toe op het vooraf trainen van transformer-taalmodellen met tot 350M parameters en laten vergelijkbare prestaties zien als reguliere neurale netwerktraining. Bovendien observeren we dat de efficiëntie van ReLoRA toeneemt met de grootte van het model, wat het een veelbelovende benadering maakt voor het efficiënt trainen van netwerken met meerdere miljarden parameters. Onze bevindingen werpen licht op het potentieel van low-rank trainingsmethoden en hun implicaties voor schalingswetten.
English
Despite the dominance and effectiveness of scaling, resulting in large
networks with hundreds of billions of parameters, the necessity to train
overparametrized models remains poorly understood, and alternative approaches
do not necessarily make it cheaper to train high-performance models. In this
paper, we explore low-rank training techniques as an alternative approach to
training large neural networks. We introduce a novel method called ReLoRA,
which utilizes low-rank updates to train high-rank networks. We apply ReLoRA to
pre-training transformer language models with up to 350M parameters and
demonstrate comparable performance to regular neural network training.
Furthermore, we observe that the efficiency of ReLoRA increases with model
size, making it a promising approach for training multi-billion-parameter
networks efficiently. Our findings shed light on the potential of low-rank
training techniques and their implications for scaling laws.