ChatPaper.aiChatPaper

Q-GaLore: GaLore cuantizado con proyección INT4 y gradientes de bajo rango adaptativos por capa.

Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients

July 11, 2024
Autores: Zhenyu Zhang, Ajay Jaiswal, Lu Yin, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang
cs.AI

Resumen

Entrenar Modelos de Lenguaje Grandes (LLMs) es intensivo en memoria debido al gran número de parámetros y estados de optimización asociados. GaLore, un método reciente, reduce el uso de memoria proyectando los gradientes de peso en un subespacio de rango bajo sin comprometer el rendimiento. Sin embargo, GaLore depende de operaciones de Descomposición de Valores Singulares (SVD) que consumen mucho tiempo para identificar el subespacio, y las frecuentes actualizaciones del subespacio conllevan a un importante sobrecoste en el tiempo de entrenamiento. Además, GaLore ofrece mejoras mínimas en precisión y eficiencia en comparación con LoRA en escenarios de ajuste fino más accesibles. Para abordar estas limitaciones, presentamos Q-Galore, un enfoque novedoso que reduce sustancialmente el uso de memoria combinando cuantización y proyección de rango bajo, superando los beneficios de GaLore. Nuestro método se basa en dos observaciones clave: (i) el subespacio de gradientes exhibe propiedades diversas, con algunas capas convergiendo temprano en el entrenamiento mientras que otras están sujetas a cambios frecuentes; (ii) las matrices de proyección son altamente resistentes a la cuantización de bajo bit. Aprovechando estas percepciones, Q-GaLore actualiza adaptativamente el subespacio de gradientes en función de sus estadísticas de convergencia, logrando un rendimiento comparable mientras reduce significativamente el número de operaciones SVD. Mantenemos las matrices de proyección en formato INT4 y los pesos en formato INT8, incorporando redondeo estocástico para capturar la información acumulada de gradientes. Este enfoque permite una trayectoria de entrenamiento de alta precisión utilizando solo pesos de baja precisión. Demostramos que Q-GaLore logra un rendimiento altamente competitivo con una eficiencia de memoria excepcional. En la pre-entrenamiento, Q-GaLore facilita el entrenamiento de un modelo LLaMA-7B desde cero en una sola NVIDIA RTX 4060 Ti con solo 16 GB de memoria. En el ajuste fino, reduce el consumo de memoria hasta en un 50% en comparación con LoRA y GaLore, superando consistentemente a QLoRA al mismo costo de memoria.
English
Training Large Language Models (LLMs) is memory-intensive due to the large number of parameters and associated optimization states. GaLore, a recent method, reduces memory usage by projecting weight gradients into a low-rank subspace without compromising performance. However, GaLore relies on time-consuming Singular Value Decomposition (SVD) operations to identify the subspace, and the frequent subspace updates lead to significant training time overhead. Moreover, GaLore offers minimal improvements in accuracy and efficiency compared to LoRA in more accessible fine-tuning scenarios. To address these limitations, we introduce Q-Galore, a novel approach that substantially reduces memory usage by combining quantization and low-rank projection, surpassing the benefits of GaLore. Our method is based on two key observations: (i) the gradient subspace exhibits diverse properties, with some layers converging early in training while others are subject to frequent changes; (ii) the projection matrices are highly resilient to low-bit quantization. Leveraging these insights, Q-GaLore adaptively updates the gradient subspace based on its convergence statistics, achieving comparable performance while significantly reducing the number of SVD operations. We maintain the projection matrices in INT4 format and weights in INT8 format, incorporating stochastic rounding to capture accumulated gradient information. This approach enables a high-precision training trajectory using only low-precision weights. We demonstrate that Q-GaLore achieves highly competitive performance with exceptional memory efficiency. At pre-training, Q-GaLore facilitates training a LLaMA-7B model from scratch on a single NVIDIA RTX 4060 Ti with only 16 GB memory. At fine-tuning, it reduces memory consumption by up to 50% compared to LoRA and GaLore, while consistently outperforming QLoRA at the same memory cost.
PDF343November 28, 2024