De GaLore para WeLore: Como Pesos de Baixa Ordem Não Uniformemente Emergem de Gradientes de Baixa Ordem

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) modernos são compostos por matrizes com bilhões de elementos, tornando seu armazenamento e processamento bastante exigentes em termos de recursos computacionais e uso de memória. Por serem significativamente grandes, tais matrizes frequentemente podem ser expressas em formato de baixa patente, com potencial para reduzir os requisitos de recursos. Ao contrário de trabalhos anteriores que se concentram no desenvolvimento de novos algoritmos de decomposição de matriz, neste trabalho primeiro estudamos o surgimento de estruturas de baixa patente em matrizes em diferentes camadas de LLMs e estabelecemos uma relação consequente entre a dinâmica do gradiente e a expressividade emergente de baixa patente das matrizes. Nossas descobertas revelam que diferentes camadas exibem níveis variados de estrutura de baixa patente convergida, exigindo uma redução de patente não uniforme entre elas para minimizar a queda de desempenho devido à compressão. Com isso em mente, apresentamos a Projeção de Baixa Patente de Peso (WeLore) que unifica a compressão de peso e o ajuste fino eficiente de memória como UM, de forma agnóstica aos dados e em uma única etapa. WeLore capitaliza a distribuição de cauda pesada de valores singulares para identificar uma proporção adequada de redução de patente para as matrizes dentro de LLMs. Indo além de ser apenas uma técnica de compressão, WeLore categoriza as matrizes de peso em Componentes de Baixa Patente (LRCs) e Componentes Não de Baixa Patente (N-LRCs) com base em sua capacidade de se expressar como baixa patente. Nossa perspectiva de gradiente e experimentos extensivos ilustram que LRCs tendem a ter melhores capacidades de ajuste fino e podem imitar de perto (às vezes superar) a trajetória de perda de treinamento e desempenho do ajuste fino completo com redução notável na pegada de memória e computação. Por exemplo, ajustar finamente um modelo LLaMa-27B comprimido em 50\% usando apenas uma fração de parâmetros em LRCs (WeLore) pode superar seu ajuste fino completo com ~3x melhor rendimento e ~0,6x requisito de GPU. Nossos códigos estão disponíveis em https://github.com/VITA-Group/welore

English

Modern Large Language Models (LLMs) are composed of matrices with billions of elements, making their storage and processing quite demanding in terms of computational resources and memory usage. Being significantly large, such matrices can often be expressed in low-rank format with potential to relax resource requirements. Unlike prior works which focus on developing novel matrix decomposition algorithms, in this work we first study the emergence of low-rank structures across matrices within different layers of LLMs and establish a consequential relationship between the gradient dynamics and emerging low-rank expressiveness of matrices. Our findings reveal that different layers exhibit varying levels of converged low-rank structure, necessitating a non-uniform rank reduction across them to minimize performance drop due to compression. In view of that, we present Weight Low-Rank Projection (WeLore) that unifies weight compression and memory-efficient fine-tuning as ONE, in a data-agnostic and one-shot way. WeLore capitalizes the heavy-tail distribution of singular values to identify a suitable rank reduction ratio for matrices within LLMs. Going beyond only as a compression technique, WeLore categorizes weight matrices into Low-rank Components (LRCs) and Non-Low-rank Components (N-LRCs) based on their ability to express themselves as low-rank. Our gradient perspective and extensive experiments illustrate that LRCs tend to have better finetuning capabilities and can closely mimic (sometimes outperform) the training loss trajectory and performance of full-finetuning with notable memory and compute footprint reduction. For example, finetuning a 50\% compressed LLaMa-2 7B model using only a fraction of parameters in LRCs (WeLore) can outperform its full finetuning with ~3x better throughput and ~0.6x GPU requirement. Our codes are available at https://github.com/VITA-Group/welore

De GaLore para WeLore: Como Pesos de Baixa Ordem Não Uniformemente Emergem de Gradientes de Baixa Ordem

From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

Resumo

Support