Q-GaLore: Квантованный GaLore с проекцией INT4 и слоями, адаптивными к низкоранговым градиентам.
Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients
July 11, 2024
Авторы: Zhenyu Zhang, Ajay Jaiswal, Lu Yin, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang
cs.AI
Аннотация
Обучение больших языковых моделей (LLM) требует больших объемов памяти из-за большого количества параметров и связанных состояний оптимизации. GaLore, недавний метод, снижает использование памяти путем проецирования градиентов весов в подпространство низкого ранга без ущерба производительности. Однако GaLore зависит от затратных операций сингулярного разложения (SVD) для определения подпространства, и частые обновления подпространства приводят к значительным накладным расходам на время обучения. Более того, по сравнению с LoRA в более доступных сценариях настройки, GaLore предлагает минимальные улучшения в точности и эффективности. Для преодоления этих ограничений мы представляем Q-Galore, новый подход, который существенно снижает использование памяти путем комбинирования квантования и проекции низкого ранга, превосходя преимущества GaLore. Наш метод основан на двух ключевых наблюдениях: (i) градиентное подпространство обладает разнообразными свойствами, где некоторые слои сходятся рано в процессе обучения, в то время как другие подвержены частым изменениям; (ii) матрицы проекции чрезвычайно устойчивы к квантованию низкого разряда. Используя эти идеи, Q-GaLore адаптивно обновляет градиентное подпространство на основе его статистики сходимости, достигая сравнимой производительности при значительном снижении количества операций SVD. Мы храним матрицы проекции в формате INT4 и веса в формате INT8, включая стохастическое округление для учета накопленной информации о градиенте. Этот подход обеспечивает траекторию обучения высокой точности, используя только веса низкой точности. Мы демонстрируем, что Q-GaLore достигает высокой конкурентоспособной производительности с исключительной эффективностью памяти. На этапе предварительного обучения Q-GaLore облегчает обучение модели LLaMA-7B с нуля на одном графическом процессоре NVIDIA RTX 4060 Ti с всего 16 ГБ памяти. При настройке Q-GaLore снижает потребление памяти до 50% по сравнению с LoRA и GaLore, превосходя QLoRA при том же объеме памяти.
English
Training Large Language Models (LLMs) is memory-intensive due to the large
number of parameters and associated optimization states. GaLore, a recent
method, reduces memory usage by projecting weight gradients into a low-rank
subspace without compromising performance. However, GaLore relies on
time-consuming Singular Value Decomposition (SVD) operations to identify the
subspace, and the frequent subspace updates lead to significant training time
overhead. Moreover, GaLore offers minimal improvements in accuracy and
efficiency compared to LoRA in more accessible fine-tuning scenarios. To
address these limitations, we introduce Q-Galore, a novel approach that
substantially reduces memory usage by combining quantization and low-rank
projection, surpassing the benefits of GaLore. Our method is based on two key
observations: (i) the gradient subspace exhibits diverse properties, with some
layers converging early in training while others are subject to frequent
changes; (ii) the projection matrices are highly resilient to low-bit
quantization. Leveraging these insights, Q-GaLore adaptively updates the
gradient subspace based on its convergence statistics, achieving comparable
performance while significantly reducing the number of SVD operations. We
maintain the projection matrices in INT4 format and weights in INT8 format,
incorporating stochastic rounding to capture accumulated gradient information.
This approach enables a high-precision training trajectory using only
low-precision weights. We demonstrate that Q-GaLore achieves highly competitive
performance with exceptional memory efficiency. At pre-training, Q-GaLore
facilitates training a LLaMA-7B model from scratch on a single NVIDIA RTX 4060
Ti with only 16 GB memory. At fine-tuning, it reduces memory consumption by up
to 50% compared to LoRA and GaLore, while consistently outperforming QLoRA at
the same memory cost.Summary
AI-Generated Summary