Empilhe Mais Camadas de Forma Diferente: Treinamento de Alta Classificação Através de Atualizações de Baixa Classificação
Stack More Layers Differently: High-Rank Training Through Low-Rank Updates
July 11, 2023
Autores: Vladislav Lialin, Namrata Shivagunde, Sherin Muckatira, Anna Rumshisky
cs.AI
Resumo
Apesar da dominância e eficácia do escalonamento, resultando em redes grandes com centenas de bilhões de parâmetros, a necessidade de treinar modelos superparametrizados ainda é pouco compreendida, e abordagens alternativas não necessariamente tornam mais barato treinar modelos de alto desempenho. Neste artigo, exploramos técnicas de treinamento de baixa classificação como uma abordagem alternativa para treinar grandes redes neurais. Introduzimos um novo método chamado ReLoRA, que utiliza atualizações de baixa classificação para treinar redes de alta classificação. Aplicamos o ReLoRA ao pré-treinamento de modelos de linguagem transformadores com até 350 milhões de parâmetros e demonstramos desempenho comparável ao treinamento regular de redes neurais. Além disso, observamos que a eficiência do ReLoRA aumenta com o tamanho do modelo, tornando-o uma abordagem promissora para treinar redes com bilhões de parâmetros de forma eficiente. Nossas descobertas lançam luz sobre o potencial das técnicas de treinamento de baixa classificação e suas implicações para as leis de escalonamento.
English
Despite the dominance and effectiveness of scaling, resulting in large
networks with hundreds of billions of parameters, the necessity to train
overparametrized models remains poorly understood, and alternative approaches
do not necessarily make it cheaper to train high-performance models. In this
paper, we explore low-rank training techniques as an alternative approach to
training large neural networks. We introduce a novel method called ReLoRA,
which utilizes low-rank updates to train high-rank networks. We apply ReLoRA to
pre-training transformer language models with up to 350M parameters and
demonstrate comparable performance to regular neural network training.
Furthermore, we observe that the efficiency of ReLoRA increases with model
size, making it a promising approach for training multi-billion-parameter
networks efficiently. Our findings shed light on the potential of low-rank
training techniques and their implications for scaling laws.