Q-GaLore: GaLore Quantizado com Projeção INT4 e Gradientes de Baixa Patente Adaptativos por Camada
Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients
July 11, 2024
Autores: Zhenyu Zhang, Ajay Jaiswal, Lu Yin, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang
cs.AI
Resumo
O treinamento de Modelos de Linguagem Grandes (LLMs) é intensivo em memória devido ao grande número de parâmetros e estados de otimização associados. O GaLore, um método recente, reduz o uso de memória projetando gradientes de peso em um subespaço de baixa classificação sem comprometer o desempenho. No entanto, o GaLore depende de operações demoradas de Decomposição em Valores Singulares (SVD) para identificar o subespaço, e as frequentes atualizações do subespaço resultam em um significativo overhead de tempo de treinamento. Além disso, o GaLore oferece melhorias mínimas em precisão e eficiência em comparação com o LoRA em cenários de ajuste fino mais acessíveis. Para lidar com essas limitações, introduzimos o Q-Galore, uma abordagem inovadora que reduz substancialmente o uso de memória combinando quantização e projeção de baixa classificação, superando os benefícios do GaLore. Nosso método é baseado em duas observações-chave: (i) o subespaço de gradiente apresenta propriedades diversas, com algumas camadas convergindo cedo no treinamento, enquanto outras estão sujeitas a mudanças frequentes; (ii) as matrizes de projeção são altamente resilientes à quantização de baixo bit. Aproveitando essas percepções, o Q-GaLore atualiza adaptativamente o subespaço de gradiente com base em suas estatísticas de convergência, alcançando desempenho comparável enquanto reduz significativamente o número de operações de SVD. Mantemos as matrizes de projeção no formato INT4 e os pesos no formato INT8, incorporando arredondamento estocástico para capturar informações de gradiente acumuladas. Essa abordagem possibilita uma trajetória de treinamento de alta precisão usando apenas pesos de baixa precisão. Demonstramos que o Q-GaLore alcança um desempenho altamente competitivo com uma eficiência de memória excepcional. No pré-treinamento, o Q-GaLore facilita o treinamento de um modelo LLaMA-7B do zero em uma única NVIDIA RTX 4060 Ti com apenas 16 GB de memória. No ajuste fino, ele reduz o consumo de memória em até 50% em comparação com o LoRA e GaLore, enquanto supera consistentemente o QLoRA com o mesmo custo de memória.
English
Training Large Language Models (LLMs) is memory-intensive due to the large
number of parameters and associated optimization states. GaLore, a recent
method, reduces memory usage by projecting weight gradients into a low-rank
subspace without compromising performance. However, GaLore relies on
time-consuming Singular Value Decomposition (SVD) operations to identify the
subspace, and the frequent subspace updates lead to significant training time
overhead. Moreover, GaLore offers minimal improvements in accuracy and
efficiency compared to LoRA in more accessible fine-tuning scenarios. To
address these limitations, we introduce Q-Galore, a novel approach that
substantially reduces memory usage by combining quantization and low-rank
projection, surpassing the benefits of GaLore. Our method is based on two key
observations: (i) the gradient subspace exhibits diverse properties, with some
layers converging early in training while others are subject to frequent
changes; (ii) the projection matrices are highly resilient to low-bit
quantization. Leveraging these insights, Q-GaLore adaptively updates the
gradient subspace based on its convergence statistics, achieving comparable
performance while significantly reducing the number of SVD operations. We
maintain the projection matrices in INT4 format and weights in INT8 format,
incorporating stochastic rounding to capture accumulated gradient information.
This approach enables a high-precision training trajectory using only
low-precision weights. We demonstrate that Q-GaLore achieves highly competitive
performance with exceptional memory efficiency. At pre-training, Q-GaLore
facilitates training a LLaMA-7B model from scratch on a single NVIDIA RTX 4060
Ti with only 16 GB memory. At fine-tuning, it reduces memory consumption by up
to 50% compared to LoRA and GaLore, while consistently outperforming QLoRA at
the same memory cost.