Empilez plus de couches différemment : Entraînement de haut rang à travers des mises à jour de bas rang
Stack More Layers Differently: High-Rank Training Through Low-Rank Updates
July 11, 2023
Auteurs: Vladislav Lialin, Namrata Shivagunde, Sherin Muckatira, Anna Rumshisky
cs.AI
Résumé
Malgré la dominance et l'efficacité de la mise à l'échelle, qui aboutit à des réseaux de grande taille avec des centaines de milliards de paramètres, la nécessité d'entraîner des modèles surparamétrés reste mal comprise, et les approches alternatives ne rendent pas nécessairement moins coûteux l'entraînement de modèles à haute performance. Dans cet article, nous explorons des techniques d'entraînement à faible rang comme approche alternative pour entraîner de grands réseaux de neurones. Nous introduisons une nouvelle méthode appelée ReLoRA, qui utilise des mises à jour de faible rang pour entraîner des réseaux de haut rang. Nous appliquons ReLoRA à l'entraînement préalable de modèles de langage de type transformateur avec jusqu'à 350 millions de paramètres et démontrons des performances comparables à celles de l'entraînement classique des réseaux de neurones. De plus, nous observons que l'efficacité de ReLoRA augmente avec la taille du modèle, en faisant une approche prometteuse pour entraîner efficacement des réseaux de plusieurs milliards de paramètres. Nos résultats mettent en lumière le potentiel des techniques d'entraînement à faible rang et leurs implications pour les lois de mise à l'échelle.
English
Despite the dominance and effectiveness of scaling, resulting in large
networks with hundreds of billions of parameters, the necessity to train
overparametrized models remains poorly understood, and alternative approaches
do not necessarily make it cheaper to train high-performance models. In this
paper, we explore low-rank training techniques as an alternative approach to
training large neural networks. We introduce a novel method called ReLoRA,
which utilizes low-rank updates to train high-rank networks. We apply ReLoRA to
pre-training transformer language models with up to 350M parameters and
demonstrate comparable performance to regular neural network training.
Furthermore, we observe that the efficiency of ReLoRA increases with model
size, making it a promising approach for training multi-billion-parameter
networks efficiently. Our findings shed light on the potential of low-rank
training techniques and their implications for scaling laws.