Q-GaLore: Quantized GaLore con Proiezione INT4 e Gradienti a Basso Rango Adattivi per Livello
Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients
July 11, 2024
Autori: Zhenyu Zhang, Ajay Jaiswal, Lu Yin, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang
cs.AI
Abstract
L'addestramento di Large Language Models (LLM) è intensivo in termini di memoria a causa del grande numero di parametri e degli stati di ottimizzazione associati. GaLore, un metodo recente, riduce l'uso della memoria proiettando i gradienti dei pesi in un sottospazio a basso rango senza compromettere le prestazioni. Tuttavia, GaLore si basa su operazioni di Singular Value Decomposition (SVD) che richiedono tempo per identificare il sottospazio, e i frequenti aggiornamenti del sottospazio portano a un significativo sovraccarico nel tempo di addestramento. Inoltre, GaLore offre miglioramenti minimi in termini di accuratezza ed efficienza rispetto a LoRA in scenari di fine-tuning più accessibili. Per affrontare queste limitazioni, introduciamo Q-Galore, un nuovo approccio che riduce sostanzialmente l'uso della memoria combinando quantizzazione e proiezione a basso rango, superando i benefici di GaLore. Il nostro metodo si basa su due osservazioni chiave: (i) il sottospazio del gradiente presenta proprietà diverse, con alcuni strati che convergono precocemente durante l'addestramento mentre altri sono soggetti a frequenti cambiamenti; (ii) le matrici di proiezione sono altamente resilienti alla quantizzazione a basso bit. Sfruttando queste intuizioni, Q-Galore aggiorna adattivamente il sottospazio del gradiente in base alle sue statistiche di convergenza, ottenendo prestazioni comparabili riducendo significativamente il numero di operazioni SVD. Manteniamo le matrici di proiezione in formato INT4 e i pesi in formato INT8, incorporando l'arrotondamento stocastico per catturare le informazioni accumulate del gradiente. Questo approccio consente una traiettoria di addestramento ad alta precisione utilizzando solo pesi a bassa precisione. Dimostriamo che Q-Galore raggiunge prestazioni altamente competitive con un'eccellente efficienza della memoria. Durante il pre-training, Q-Galore facilita l'addestramento di un modello LLaMA-7B da zero su una singola NVIDIA RTX 4060 Ti con solo 16 GB di memoria. Durante il fine-tuning, riduce il consumo di memoria fino al 50% rispetto a LoRA e GaLore, superando costantemente QLoRA allo stesso costo di memoria.
English
Training Large Language Models (LLMs) is memory-intensive due to the large
number of parameters and associated optimization states. GaLore, a recent
method, reduces memory usage by projecting weight gradients into a low-rank
subspace without compromising performance. However, GaLore relies on
time-consuming Singular Value Decomposition (SVD) operations to identify the
subspace, and the frequent subspace updates lead to significant training time
overhead. Moreover, GaLore offers minimal improvements in accuracy and
efficiency compared to LoRA in more accessible fine-tuning scenarios. To
address these limitations, we introduce Q-Galore, a novel approach that
substantially reduces memory usage by combining quantization and low-rank
projection, surpassing the benefits of GaLore. Our method is based on two key
observations: (i) the gradient subspace exhibits diverse properties, with some
layers converging early in training while others are subject to frequent
changes; (ii) the projection matrices are highly resilient to low-bit
quantization. Leveraging these insights, Q-GaLore adaptively updates the
gradient subspace based on its convergence statistics, achieving comparable
performance while significantly reducing the number of SVD operations. We
maintain the projection matrices in INT4 format and weights in INT8 format,
incorporating stochastic rounding to capture accumulated gradient information.
This approach enables a high-precision training trajectory using only
low-precision weights. We demonstrate that Q-GaLore achieves highly competitive
performance with exceptional memory efficiency. At pre-training, Q-GaLore
facilitates training a LLaMA-7B model from scratch on a single NVIDIA RTX 4060
Ti with only 16 GB memory. At fine-tuning, it reduces memory consumption by up
to 50% compared to LoRA and GaLore, while consistently outperforming QLoRA at
the same memory cost.