Q-GaLore: Quantisiertes GaLore mit INT4-Projektion und schichtadaptiven Niederrang-Gradienten
Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients
July 11, 2024
Autoren: Zhenyu Zhang, Ajay Jaiswal, Lu Yin, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang
cs.AI
Zusammenfassung
Das Training von großen Sprachmodellen (Large Language Models, LLMs) ist aufgrund der großen Anzahl von Parametern und zugehörigen Optimierungszuständen speicherintensiv. GaLore, eine kürzlich entwickelte Methode, reduziert den Speicherverbrauch, indem Gewichtsgradienten in einen niederdimensionalen Unterraum projiziert werden, ohne die Leistung zu beeinträchtigen. GaLore stützt sich jedoch auf zeitaufwändige Singular Value Decomposition (SVD)-Operationen, um den Unterraum zu identifizieren, und die häufigen Aktualisierungen des Unterraums führen zu erheblichem zusätzlichem Trainingsaufwand. Darüber hinaus bietet GaLore im Vergleich zu LoRA in zugänglicheren Feinabstimmungsszenarien nur minimale Verbesserungen in Genauigkeit und Effizienz. Um diese Einschränkungen zu überwinden, stellen wir Q-GaLore vor, einen neuartigen Ansatz, der den Speicherverbrauch erheblich reduziert, indem Quantisierung und niederdimensionale Projektion kombiniert werden und damit die Vorteile von GaLore übertrifft. Unsere Methode basiert auf zwei wesentlichen Beobachtungen: (i) der Gradienten-Unterraum zeigt vielfältige Eigenschaften, wobei einige Schichten früh im Training konvergieren, während andere häufigen Änderungen unterliegen; (ii) die Projektionsmatrizen sind gegenüber Quantisierung mit wenigen Bits sehr widerstandsfähig. Unter Nutzung dieser Erkenntnisse aktualisiert Q-GaLore den Gradienten-Unterraum adaptiv basierend auf seinen Konvergenzstatistiken und erzielt vergleichbare Leistung, während die Anzahl der SVD-Operationen signifikant reduziert wird. Wir halten die Projektionsmatrizen im INT4-Format und die Gewichte im INT8-Format, wobei stochastisches Runden zur Erfassung akkumulierter Gradienteninformationen integriert wird. Dieser Ansatz ermöglicht eine hochpräzise Trainingsbahn unter Verwendung nur von Gewichten mit geringer Präzision. Wir zeigen, dass Q-GaLore eine äußerst wettbewerbsfähige Leistung bei außergewöhnlicher Speichereffizienz erzielt. Beim Vortraining erleichtert Q-GaLore das Training eines LLaMA-7B-Modells von Grund auf auf einer einzigen NVIDIA RTX 4060 Ti mit nur 16 GB Speicher. Bei der Feinabstimmung reduziert es den Speicherverbrauch um bis zu 50% im Vergleich zu LoRA und GaLore, während es QLoRA bei gleichem Speicheraufwand kontinuierlich übertrifft.
English
Training Large Language Models (LLMs) is memory-intensive due to the large
number of parameters and associated optimization states. GaLore, a recent
method, reduces memory usage by projecting weight gradients into a low-rank
subspace without compromising performance. However, GaLore relies on
time-consuming Singular Value Decomposition (SVD) operations to identify the
subspace, and the frequent subspace updates lead to significant training time
overhead. Moreover, GaLore offers minimal improvements in accuracy and
efficiency compared to LoRA in more accessible fine-tuning scenarios. To
address these limitations, we introduce Q-Galore, a novel approach that
substantially reduces memory usage by combining quantization and low-rank
projection, surpassing the benefits of GaLore. Our method is based on two key
observations: (i) the gradient subspace exhibits diverse properties, with some
layers converging early in training while others are subject to frequent
changes; (ii) the projection matrices are highly resilient to low-bit
quantization. Leveraging these insights, Q-GaLore adaptively updates the
gradient subspace based on its convergence statistics, achieving comparable
performance while significantly reducing the number of SVD operations. We
maintain the projection matrices in INT4 format and weights in INT8 format,
incorporating stochastic rounding to capture accumulated gradient information.
This approach enables a high-precision training trajectory using only
low-precision weights. We demonstrate that Q-GaLore achieves highly competitive
performance with exceptional memory efficiency. At pre-training, Q-GaLore
facilitates training a LLaMA-7B model from scratch on a single NVIDIA RTX 4060
Ti with only 16 GB memory. At fine-tuning, it reduces memory consumption by up
to 50% compared to LoRA and GaLore, while consistently outperforming QLoRA at
the same memory cost.Summary
AI-Generated Summary