De GaLore à WeLore : Comment les poids de bas rang émergent de manière non uniforme à partir de gradients de bas rang
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients
July 15, 2024
Auteurs: Ajay Jaiswal, Lu Yin, Zhenyu Zhang, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang
cs.AI
Résumé
Les modèles de langage modernes de grande taille (LLMs) sont composés de matrices contenant des milliards d'éléments, ce qui rend leur stockage et leur traitement particulièrement exigeants en termes de ressources computationnelles et d'utilisation de la mémoire. Étant de taille considérable, ces matrices peuvent souvent être exprimées dans un format de faible rang, ce qui offre un potentiel pour réduire les exigences en ressources. Contrairement aux travaux antérieurs qui se concentrent sur le développement de nouveaux algorithmes de décomposition matricielle, dans cette étude, nous examinons d'abord l'émergence de structures de faible rang à travers les matrices des différentes couches des LLMs et établissons une relation conséquente entre la dynamique des gradients et l'expressivité de faible rang émergente des matrices. Nos résultats révèlent que différentes couches présentent des niveaux variables de structure de faible rang convergée, nécessitant une réduction de rang non uniforme pour minimiser la baisse de performance due à la compression. Dans cette perspective, nous présentons la Projection de Poids à Faible Rang (WeLore), qui unifie la compression des poids et le réglage fin efficace en mémoire en UNE seule étape, de manière agnostique aux données et en une seule passe. WeLore exploite la distribution à queue lourde des valeurs singulières pour identifier un ratio de réduction de rang approprié pour les matrices au sein des LLMs. Allant au-delà d'une simple technique de compression, WeLore catégorise les matrices de poids en Composants de Faible Rang (LRCs) et Composants Non-Faible Rang (N-LRCs) en fonction de leur capacité à s'exprimer en faible rang. Notre perspective sur les gradients et nos expériences approfondies montrent que les LRCs ont tendance à avoir de meilleures capacités de réglage fin et peuvent imiter de près (parfois surpasser) la trajectoire de perte d'entraînement et la performance d'un réglage fin complet, avec une réduction notable de l'empreinte mémoire et computationnelle. Par exemple, le réglage fin d'un modèle LLaMa-2 7B compressé à 50 % en utilisant seulement une fraction des paramètres dans les LRCs (WeLore) peut surpasser son réglage fin complet avec un débit environ 3 fois meilleur et une exigence GPU réduite de ~0,6x. Nos codes sont disponibles à l'adresse https://github.com/VITA-Group/welore.
English
Modern Large Language Models (LLMs) are composed of matrices with billions of
elements, making their storage and processing quite demanding in terms of
computational resources and memory usage. Being significantly large, such
matrices can often be expressed in low-rank format with potential to relax
resource requirements. Unlike prior works which focus on developing novel
matrix decomposition algorithms, in this work we first study the emergence of
low-rank structures across matrices within different layers of LLMs and
establish a consequential relationship between the gradient dynamics and
emerging low-rank expressiveness of matrices. Our findings reveal that
different layers exhibit varying levels of converged low-rank structure,
necessitating a non-uniform rank reduction across them to minimize performance
drop due to compression. In view of that, we present Weight Low-Rank Projection
(WeLore) that unifies weight compression and memory-efficient fine-tuning as
ONE, in a data-agnostic and one-shot way. WeLore capitalizes the heavy-tail
distribution of singular values to identify a suitable rank reduction ratio for
matrices within LLMs. Going beyond only as a compression technique, WeLore
categorizes weight matrices into Low-rank Components (LRCs) and Non-Low-rank
Components (N-LRCs) based on their ability to express themselves as low-rank.
Our gradient perspective and extensive experiments illustrate that LRCs tend to
have better finetuning capabilities and can closely mimic (sometimes
outperform) the training loss trajectory and performance of full-finetuning
with notable memory and compute footprint reduction. For example, finetuning a
50\% compressed LLaMa-2 7B model using only a fraction of parameters in LRCs
(WeLore) can outperform its full finetuning with ~3x better throughput and
~0.6x GPU requirement. Our codes are available at
https://github.com/VITA-Group/weloreSummary
AI-Generated Summary