De GaLore para WeLore: Como Pesos de Baixa Ordem Não Uniformemente Emergem de Gradientes de Baixa Ordem
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients
July 15, 2024
Autores: Ajay Jaiswal, Lu Yin, Zhenyu Zhang, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) modernos são compostos por matrizes com bilhões de elementos, tornando seu armazenamento e processamento bastante exigentes em termos de recursos computacionais e uso de memória. Por serem significativamente grandes, tais matrizes frequentemente podem ser expressas em formato de baixa patente, com potencial para reduzir os requisitos de recursos. Ao contrário de trabalhos anteriores que se concentram no desenvolvimento de novos algoritmos de decomposição de matriz, neste trabalho primeiro estudamos o surgimento de estruturas de baixa patente em matrizes em diferentes camadas de LLMs e estabelecemos uma relação consequente entre a dinâmica do gradiente e a expressividade emergente de baixa patente das matrizes. Nossas descobertas revelam que diferentes camadas exibem níveis variados de estrutura de baixa patente convergida, exigindo uma redução de patente não uniforme entre elas para minimizar a queda de desempenho devido à compressão. Com isso em mente, apresentamos a Projeção de Baixa Patente de Peso (WeLore) que unifica a compressão de peso e o ajuste fino eficiente de memória como UM, de forma agnóstica aos dados e em uma única etapa. WeLore capitaliza a distribuição de cauda pesada de valores singulares para identificar uma proporção adequada de redução de patente para as matrizes dentro de LLMs. Indo além de ser apenas uma técnica de compressão, WeLore categoriza as matrizes de peso em Componentes de Baixa Patente (LRCs) e Componentes Não de Baixa Patente (N-LRCs) com base em sua capacidade de se expressar como baixa patente. Nossa perspectiva de gradiente e experimentos extensivos ilustram que LRCs tendem a ter melhores capacidades de ajuste fino e podem imitar de perto (às vezes superar) a trajetória de perda de treinamento e desempenho do ajuste fino completo com redução notável na pegada de memória e computação. Por exemplo, ajustar finamente um modelo LLaMa-27B comprimido em 50\% usando apenas uma fração de parâmetros em LRCs (WeLore) pode superar seu ajuste fino completo com ~3x melhor rendimento e ~0,6x requisito de GPU. Nossos códigos estão disponíveis em https://github.com/VITA-Group/welore
English
Modern Large Language Models (LLMs) are composed of matrices with billions of
elements, making their storage and processing quite demanding in terms of
computational resources and memory usage. Being significantly large, such
matrices can often be expressed in low-rank format with potential to relax
resource requirements. Unlike prior works which focus on developing novel
matrix decomposition algorithms, in this work we first study the emergence of
low-rank structures across matrices within different layers of LLMs and
establish a consequential relationship between the gradient dynamics and
emerging low-rank expressiveness of matrices. Our findings reveal that
different layers exhibit varying levels of converged low-rank structure,
necessitating a non-uniform rank reduction across them to minimize performance
drop due to compression. In view of that, we present Weight Low-Rank Projection
(WeLore) that unifies weight compression and memory-efficient fine-tuning as
ONE, in a data-agnostic and one-shot way. WeLore capitalizes the heavy-tail
distribution of singular values to identify a suitable rank reduction ratio for
matrices within LLMs. Going beyond only as a compression technique, WeLore
categorizes weight matrices into Low-rank Components (LRCs) and Non-Low-rank
Components (N-LRCs) based on their ability to express themselves as low-rank.
Our gradient perspective and extensive experiments illustrate that LRCs tend to
have better finetuning capabilities and can closely mimic (sometimes
outperform) the training loss trajectory and performance of full-finetuning
with notable memory and compute footprint reduction. For example, finetuning a
50\% compressed LLaMa-2 7B model using only a fraction of parameters in LRCs
(WeLore) can outperform its full finetuning with ~3x better throughput and
~0.6x GPU requirement. Our codes are available at
https://github.com/VITA-Group/welore