ChatPaper.aiChatPaper

Van GaLore naar WeLore: Hoe Laag-Rang Gewichten Niet-Uniform Ontstaan uit Laag-Rang Gradiënten

From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

July 15, 2024
Auteurs: Ajay Jaiswal, Lu Yin, Zhenyu Zhang, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang
cs.AI

Samenvatting

Moderne Large Language Models (LLM's) bestaan uit matrices met miljarden elementen, waardoor hun opslag en verwerking behoorlijk veeleisend zijn wat betreft rekenkracht en geheugengebruik. Omdat deze matrices aanzienlijk groot zijn, kunnen ze vaak worden uitgedrukt in een low-rank-formaat, wat het potentieel heeft om de resourcebehoeften te verminderen. In tegenstelling tot eerdere werken die zich richten op het ontwikkelen van nieuwe matrixdecompositie-algoritmen, bestuderen we in dit werk eerst het ontstaan van low-rank-structuren in matrices binnen verschillende lagen van LLM's en leggen we een causaal verband tussen de gradientdynamiek en de opkomende low-rank-expressiviteit van matrices. Onze bevindingen laten zien dat verschillende lagen variërende niveaus van geconvergeerde low-rank-structuur vertonen, wat een niet-uniforme rankreductie over deze lagen vereist om prestatieverlies door compressie te minimaliseren. Gezien dit presenteren we Weight Low-Rank Projection (WeLore), dat gewichtscompressie en geheugenefficiënte fine-tuning verenigt als ÉÉN, op een data-agnostische en one-shot-manier. WeLore maakt gebruik van de heavy-tail-distributie van singuliere waarden om een geschikte rankreductieverhouding te identificeren voor matrices binnen LLM's. Meer dan alleen een compressietechniek, categoriseert WeLore gewichtsmatrices in Low-rank Components (LRC's) en Non-Low-rank Components (N-LRC's) op basis van hun vermogen om zich als low-rank uit te drukken. Ons gradientperspectief en uitgebreide experimenten illustreren dat LRC's de neiging hebben betere fine-tuning-mogelijkheden te hebben en nauw kunnen nabootsen (en soms overtreffen) het trainingsverliesverloop en de prestaties van volledige fine-tuning, met een aanzienlijke vermindering van geheugen- en rekenkrachtvereisten. Bijvoorbeeld, het fine-tunen van een 50% gecomprimeerd LLaMa-2 7B-model met slechts een fractie van de parameters in LRC's (WeLore) kan de volledige fine-tuning overtreffen met ~3x betere doorvoer en ~0.6x GPU-vereiste. Onze codes zijn beschikbaar op https://github.com/VITA-Group/welore.
English
Modern Large Language Models (LLMs) are composed of matrices with billions of elements, making their storage and processing quite demanding in terms of computational resources and memory usage. Being significantly large, such matrices can often be expressed in low-rank format with potential to relax resource requirements. Unlike prior works which focus on developing novel matrix decomposition algorithms, in this work we first study the emergence of low-rank structures across matrices within different layers of LLMs and establish a consequential relationship between the gradient dynamics and emerging low-rank expressiveness of matrices. Our findings reveal that different layers exhibit varying levels of converged low-rank structure, necessitating a non-uniform rank reduction across them to minimize performance drop due to compression. In view of that, we present Weight Low-Rank Projection (WeLore) that unifies weight compression and memory-efficient fine-tuning as ONE, in a data-agnostic and one-shot way. WeLore capitalizes the heavy-tail distribution of singular values to identify a suitable rank reduction ratio for matrices within LLMs. Going beyond only as a compression technique, WeLore categorizes weight matrices into Low-rank Components (LRCs) and Non-Low-rank Components (N-LRCs) based on their ability to express themselves as low-rank. Our gradient perspective and extensive experiments illustrate that LRCs tend to have better finetuning capabilities and can closely mimic (sometimes outperform) the training loss trajectory and performance of full-finetuning with notable memory and compute footprint reduction. For example, finetuning a 50\% compressed LLaMa-2 7B model using only a fraction of parameters in LRCs (WeLore) can outperform its full finetuning with ~3x better throughput and ~0.6x GPU requirement. Our codes are available at https://github.com/VITA-Group/welore
PDF82February 7, 2026