Apila Más Capas de Manera Diferente: Entrenamiento de Alto Rango a Través de Actualizaciones de Bajo Rango

Resumen

A pesar del dominio y la efectividad del escalamiento, que resulta en redes grandes con cientos de miles de millones de parámetros, la necesidad de entrenar modelos sobreparametrizados sigue siendo poco comprendida, y los enfoques alternativos no necesariamente hacen que sea más económico entrenar modelos de alto rendimiento. En este artículo, exploramos técnicas de entrenamiento de bajo rango como un enfoque alternativo para entrenar redes neuronales grandes. Introducimos un método novedoso llamado ReLoRA, que utiliza actualizaciones de bajo rango para entrenar redes de alto rango. Aplicamos ReLoRA al preentrenamiento de modelos de lenguaje basados en transformadores con hasta 350 millones de parámetros y demostramos un rendimiento comparable al entrenamiento regular de redes neuronales. Además, observamos que la eficiencia de ReLoRA aumenta con el tamaño del modelo, lo que lo convierte en un enfoque prometedor para entrenar redes con miles de millones de parámetros de manera eficiente. Nuestros hallazgos arrojan luz sobre el potencial de las técnicas de entrenamiento de bajo rango y sus implicaciones para las leyes de escalamiento.

English

Despite the dominance and effectiveness of scaling, resulting in large networks with hundreds of billions of parameters, the necessity to train overparametrized models remains poorly understood, and alternative approaches do not necessarily make it cheaper to train high-performance models. In this paper, we explore low-rank training techniques as an alternative approach to training large neural networks. We introduce a novel method called ReLoRA, which utilizes low-rank updates to train high-rank networks. We apply ReLoRA to pre-training transformer language models with up to 350M parameters and demonstrate comparable performance to regular neural network training. Furthermore, we observe that the efficiency of ReLoRA increases with model size, making it a promising approach for training multi-billion-parameter networks efficiently. Our findings shed light on the potential of low-rank training techniques and their implications for scaling laws.

Apila Más Capas de Manera Diferente: Entrenamiento de Alto Rango a Través de Actualizaciones de Bajo Rango

Stack More Layers Differently: High-Rank Training Through Low-Rank Updates

Resumen

Support