Apila Más Capas de Manera Diferente: Entrenamiento de Alto Rango a Través de Actualizaciones de Bajo Rango
Stack More Layers Differently: High-Rank Training Through Low-Rank Updates
July 11, 2023
Autores: Vladislav Lialin, Namrata Shivagunde, Sherin Muckatira, Anna Rumshisky
cs.AI
Resumen
A pesar del dominio y la efectividad del escalamiento, que resulta en redes grandes con cientos de miles de millones de parámetros, la necesidad de entrenar modelos sobreparametrizados sigue siendo poco comprendida, y los enfoques alternativos no necesariamente hacen que sea más económico entrenar modelos de alto rendimiento. En este artículo, exploramos técnicas de entrenamiento de bajo rango como un enfoque alternativo para entrenar redes neuronales grandes. Introducimos un método novedoso llamado ReLoRA, que utiliza actualizaciones de bajo rango para entrenar redes de alto rango. Aplicamos ReLoRA al preentrenamiento de modelos de lenguaje basados en transformadores con hasta 350 millones de parámetros y demostramos un rendimiento comparable al entrenamiento regular de redes neuronales. Además, observamos que la eficiencia de ReLoRA aumenta con el tamaño del modelo, lo que lo convierte en un enfoque prometedor para entrenar redes con miles de millones de parámetros de manera eficiente. Nuestros hallazgos arrojan luz sobre el potencial de las técnicas de entrenamiento de bajo rango y sus implicaciones para las leyes de escalamiento.
English
Despite the dominance and effectiveness of scaling, resulting in large
networks with hundreds of billions of parameters, the necessity to train
overparametrized models remains poorly understood, and alternative approaches
do not necessarily make it cheaper to train high-performance models. In this
paper, we explore low-rank training techniques as an alternative approach to
training large neural networks. We introduce a novel method called ReLoRA,
which utilizes low-rank updates to train high-rank networks. We apply ReLoRA to
pre-training transformer language models with up to 350M parameters and
demonstrate comparable performance to regular neural network training.
Furthermore, we observe that the efficiency of ReLoRA increases with model
size, making it a promising approach for training multi-billion-parameter
networks efficiently. Our findings shed light on the potential of low-rank
training techniques and their implications for scaling laws.