De GaLore à WeLore : Comment les poids de bas rang émergent de manière non uniforme à partir de gradients de bas rang

papers.abstract

Les modèles de langage modernes de grande taille (LLMs) sont composés de matrices contenant des milliards d'éléments, ce qui rend leur stockage et leur traitement particulièrement exigeants en termes de ressources computationnelles et d'utilisation de la mémoire. Étant de taille considérable, ces matrices peuvent souvent être exprimées dans un format de faible rang, ce qui offre un potentiel pour réduire les exigences en ressources. Contrairement aux travaux antérieurs qui se concentrent sur le développement de nouveaux algorithmes de décomposition matricielle, dans cette étude, nous examinons d'abord l'émergence de structures de faible rang à travers les matrices des différentes couches des LLMs et établissons une relation conséquente entre la dynamique des gradients et l'expressivité de faible rang émergente des matrices. Nos résultats révèlent que différentes couches présentent des niveaux variables de structure de faible rang convergée, nécessitant une réduction de rang non uniforme pour minimiser la baisse de performance due à la compression. Dans cette perspective, nous présentons la Projection de Poids à Faible Rang (WeLore), qui unifie la compression des poids et le réglage fin efficace en mémoire en UNE seule étape, de manière agnostique aux données et en une seule passe. WeLore exploite la distribution à queue lourde des valeurs singulières pour identifier un ratio de réduction de rang approprié pour les matrices au sein des LLMs. Allant au-delà d'une simple technique de compression, WeLore catégorise les matrices de poids en Composants de Faible Rang (LRCs) et Composants Non-Faible Rang (N-LRCs) en fonction de leur capacité à s'exprimer en faible rang. Notre perspective sur les gradients et nos expériences approfondies montrent que les LRCs ont tendance à avoir de meilleures capacités de réglage fin et peuvent imiter de près (parfois surpasser) la trajectoire de perte d'entraînement et la performance d'un réglage fin complet, avec une réduction notable de l'empreinte mémoire et computationnelle. Par exemple, le réglage fin d'un modèle LLaMa-2 7B compressé à 50 % en utilisant seulement une fraction des paramètres dans les LRCs (WeLore) peut surpasser son réglage fin complet avec un débit environ 3 fois meilleur et une exigence GPU réduite de ~0,6x. Nos codes sont disponibles à l'adresse https://github.com/VITA-Group/welore.

English

Modern Large Language Models (LLMs) are composed of matrices with billions of elements, making their storage and processing quite demanding in terms of computational resources and memory usage. Being significantly large, such matrices can often be expressed in low-rank format with potential to relax resource requirements. Unlike prior works which focus on developing novel matrix decomposition algorithms, in this work we first study the emergence of low-rank structures across matrices within different layers of LLMs and establish a consequential relationship between the gradient dynamics and emerging low-rank expressiveness of matrices. Our findings reveal that different layers exhibit varying levels of converged low-rank structure, necessitating a non-uniform rank reduction across them to minimize performance drop due to compression. In view of that, we present Weight Low-Rank Projection (WeLore) that unifies weight compression and memory-efficient fine-tuning as ONE, in a data-agnostic and one-shot way. WeLore capitalizes the heavy-tail distribution of singular values to identify a suitable rank reduction ratio for matrices within LLMs. Going beyond only as a compression technique, WeLore categorizes weight matrices into Low-rank Components (LRCs) and Non-Low-rank Components (N-LRCs) based on their ability to express themselves as low-rank. Our gradient perspective and extensive experiments illustrate that LRCs tend to have better finetuning capabilities and can closely mimic (sometimes outperform) the training loss trajectory and performance of full-finetuning with notable memory and compute footprint reduction. For example, finetuning a 50\% compressed LLaMa-2 7B model using only a fraction of parameters in LRCs (WeLore) can outperform its full finetuning with ~3x better throughput and ~0.6x GPU requirement. Our codes are available at https://github.com/VITA-Group/welore

De GaLore à WeLore : Comment les poids de bas rang émergent de manière non uniforme à partir de gradients de bas rang

From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

papers.abstract

Support