Empilhe Mais Camadas de Forma Diferente: Treinamento de Alta Classificação Através de Atualizações de Baixa Classificação

Resumo

Apesar da dominância e eficácia do escalonamento, resultando em redes grandes com centenas de bilhões de parâmetros, a necessidade de treinar modelos superparametrizados ainda é pouco compreendida, e abordagens alternativas não necessariamente tornam mais barato treinar modelos de alto desempenho. Neste artigo, exploramos técnicas de treinamento de baixa classificação como uma abordagem alternativa para treinar grandes redes neurais. Introduzimos um novo método chamado ReLoRA, que utiliza atualizações de baixa classificação para treinar redes de alta classificação. Aplicamos o ReLoRA ao pré-treinamento de modelos de linguagem transformadores com até 350 milhões de parâmetros e demonstramos desempenho comparável ao treinamento regular de redes neurais. Além disso, observamos que a eficiência do ReLoRA aumenta com o tamanho do modelo, tornando-o uma abordagem promissora para treinar redes com bilhões de parâmetros de forma eficiente. Nossas descobertas lançam luz sobre o potencial das técnicas de treinamento de baixa classificação e suas implicações para as leis de escalonamento.

English

Despite the dominance and effectiveness of scaling, resulting in large networks with hundreds of billions of parameters, the necessity to train overparametrized models remains poorly understood, and alternative approaches do not necessarily make it cheaper to train high-performance models. In this paper, we explore low-rank training techniques as an alternative approach to training large neural networks. We introduce a novel method called ReLoRA, which utilizes low-rank updates to train high-rank networks. We apply ReLoRA to pre-training transformer language models with up to 350M parameters and demonstrate comparable performance to regular neural network training. Furthermore, we observe that the efficiency of ReLoRA increases with model size, making it a promising approach for training multi-billion-parameter networks efficiently. Our findings shed light on the potential of low-rank training techniques and their implications for scaling laws.

Empilhe Mais Camadas de Forma Diferente: Treinamento de Alta Classificação Através de Atualizações de Baixa Classificação

Stack More Layers Differently: High-Rank Training Through Low-Rank Updates

Resumo

Support