Empilez plus de couches différemment : Entraînement de haut rang à travers des mises à jour de bas rang

Résumé

Malgré la dominance et l'efficacité de la mise à l'échelle, qui aboutit à des réseaux de grande taille avec des centaines de milliards de paramètres, la nécessité d'entraîner des modèles surparamétrés reste mal comprise, et les approches alternatives ne rendent pas nécessairement moins coûteux l'entraînement de modèles à haute performance. Dans cet article, nous explorons des techniques d'entraînement à faible rang comme approche alternative pour entraîner de grands réseaux de neurones. Nous introduisons une nouvelle méthode appelée ReLoRA, qui utilise des mises à jour de faible rang pour entraîner des réseaux de haut rang. Nous appliquons ReLoRA à l'entraînement préalable de modèles de langage de type transformateur avec jusqu'à 350 millions de paramètres et démontrons des performances comparables à celles de l'entraînement classique des réseaux de neurones. De plus, nous observons que l'efficacité de ReLoRA augmente avec la taille du modèle, en faisant une approche prometteuse pour entraîner efficacement des réseaux de plusieurs milliards de paramètres. Nos résultats mettent en lumière le potentiel des techniques d'entraînement à faible rang et leurs implications pour les lois de mise à l'échelle.

English

Despite the dominance and effectiveness of scaling, resulting in large networks with hundreds of billions of parameters, the necessity to train overparametrized models remains poorly understood, and alternative approaches do not necessarily make it cheaper to train high-performance models. In this paper, we explore low-rank training techniques as an alternative approach to training large neural networks. We introduce a novel method called ReLoRA, which utilizes low-rank updates to train high-rank networks. We apply ReLoRA to pre-training transformer language models with up to 350M parameters and demonstrate comparable performance to regular neural network training. Furthermore, we observe that the efficiency of ReLoRA increases with model size, making it a promising approach for training multi-billion-parameter networks efficiently. Our findings shed light on the potential of low-rank training techniques and their implications for scaling laws.

Empilez plus de couches différemment : Entraînement de haut rang à travers des mises à jour de bas rang

Stack More Layers Differently: High-Rank Training Through Low-Rank Updates

Résumé

Support