ChatPaper.aiChatPaper

Stapeln Sie mehr Schichten anders: Hochrangiges Training durch niederrangige Aktualisierungen

Stack More Layers Differently: High-Rank Training Through Low-Rank Updates

July 11, 2023
Autoren: Vladislav Lialin, Namrata Shivagunde, Sherin Muckatira, Anna Rumshisky
cs.AI

Zusammenfassung

Trotz der Dominanz und Effektivität von Skalierung, die zu großen Netzwerken mit Hunderten von Milliarden Parametern führt, bleibt die Notwendigkeit, überparametrisierte Modelle zu trainieren, weitgehend unverstanden, und alternative Ansätze machen das Training von leistungsstarken Modellen nicht unbedingt kostengünstiger. In diesem Artikel untersuchen wir Low-Rank-Trainingstechniken als alternativen Ansatz zum Training großer neuronaler Netzwerke. Wir stellen eine neuartige Methode namens ReLoRA vor, die Low-Rank-Updates nutzt, um High-Rank-Netzwerke zu trainieren. Wir wenden ReLoRA auf das Pre-Training von Transformer-Sprachmodellen mit bis zu 350M Parametern an und zeigen eine vergleichbare Leistung zum regulären Training neuronaler Netzwerke. Darüber hinaus beobachten wir, dass die Effizienz von ReLoRA mit der Modellgröße zunimmt, was es zu einem vielversprechenden Ansatz für das effiziente Training von Netzwerken mit mehreren Milliarden Parametern macht. Unsere Erkenntnisse beleuchten das Potenzial von Low-Rank-Trainingstechniken und deren Auswirkungen auf Skalierungsgesetze.
English
Despite the dominance and effectiveness of scaling, resulting in large networks with hundreds of billions of parameters, the necessity to train overparametrized models remains poorly understood, and alternative approaches do not necessarily make it cheaper to train high-performance models. In this paper, we explore low-rank training techniques as an alternative approach to training large neural networks. We introduce a novel method called ReLoRA, which utilizes low-rank updates to train high-rank networks. We apply ReLoRA to pre-training transformer language models with up to 350M parameters and demonstrate comparable performance to regular neural network training. Furthermore, we observe that the efficiency of ReLoRA increases with model size, making it a promising approach for training multi-billion-parameter networks efficiently. Our findings shed light on the potential of low-rank training techniques and their implications for scaling laws.
PDF230December 15, 2024