ChatPaper.aiChatPaper

Создавайте больше слоев по-новому: высокоранговое обучение через низкоранговые обновления

Stack More Layers Differently: High-Rank Training Through Low-Rank Updates

July 11, 2023
Авторы: Vladislav Lialin, Namrata Shivagunde, Sherin Muckatira, Anna Rumshisky
cs.AI

Аннотация

Несмотря на доминирование и эффективность масштабирования, приводящего к созданию крупных сетей с сотнями миллиардов параметров, необходимость обучения перепараметризованных моделей остается недостаточно изученной, а альтернативные подходы не обязательно делают обучение высокопроизводительных моделей более экономичным. В данной статье мы исследуем методы обучения с низким рангом как альтернативный подход к обучению крупных нейронных сетей. Мы представляем новый метод под названием ReLoRA, который использует низкоранговые обновления для обучения высокоранговых сетей. Мы применяем ReLoRA для предварительного обучения трансформерных языковых моделей с количеством параметров до 350 миллионов и демонстрируем сопоставимую производительность с обычным обучением нейронных сетей. Более того, мы наблюдаем, что эффективность ReLoRA возрастает с увеличением размера модели, что делает его перспективным подходом для эффективного обучения сетей с миллиардами параметров. Наши результаты проливают свет на потенциал методов обучения с низким рангом и их влияние на законы масштабирования.
English
Despite the dominance and effectiveness of scaling, resulting in large networks with hundreds of billions of parameters, the necessity to train overparametrized models remains poorly understood, and alternative approaches do not necessarily make it cheaper to train high-performance models. In this paper, we explore low-rank training techniques as an alternative approach to training large neural networks. We introduce a novel method called ReLoRA, which utilizes low-rank updates to train high-rank networks. We apply ReLoRA to pre-training transformer language models with up to 350M parameters and demonstrate comparable performance to regular neural network training. Furthermore, we observe that the efficiency of ReLoRA increases with model size, making it a promising approach for training multi-billion-parameter networks efficiently. Our findings shed light on the potential of low-rank training techniques and their implications for scaling laws.
PDF230December 15, 2024