Von GaLore zu WeLore: Wie niedrigrangige Gewichte ungleichmäßig aus niedrigrangigen Gradienten entstehen.
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients
July 15, 2024
Autoren: Ajay Jaiswal, Lu Yin, Zhenyu Zhang, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang
cs.AI
Zusammenfassung
Moderne große Sprachmodelle (LLMs) bestehen aus Matrizen mit Milliarden von Elementen, was ihre Speicherung und Verarbeitung in Bezug auf Rechenressourcen und Speichernutzung sehr anspruchsvoll macht. Aufgrund ihrer signifikanten Größe können solche Matrizen oft im Low-Rank-Format dargestellt werden, was das Ressourcenbedarf entspannen kann. Im Gegensatz zu früheren Arbeiten, die sich auf die Entwicklung neuartiger Matrixzerlegungsalgorithmen konzentrieren, untersuchen wir in dieser Arbeit zunächst das Auftreten von Low-Rank-Strukturen in Matrizen innerhalb verschiedener Schichten von LLMs und stellen eine kausale Beziehung zwischen der Gradientendynamik und der aufkommenden Low-Rank-Ausdruckskraft von Matrizen her. Unsere Ergebnisse zeigen, dass verschiedene Schichten unterschiedliche Grade konvergierter Low-Rank-Strukturen aufweisen, was eine nicht einheitliche Rangreduktion erfordert, um Leistungseinbußen aufgrund von Kompression zu minimieren. In Anbetracht dessen präsentieren wir Weight Low-Rank Projection (WeLore), das Gewichtskompression und speichereffizientes Feintuning in EINEM datenagnostischen und einmaligen Ansatz vereint. WeLore nutzt die schwanzlastige Verteilung singulärer Werte, um ein geeignetes Rangreduktionsverhältnis für Matrizen innerhalb von LLMs zu identifizieren. Über die reine Kompressionstechnik hinaus kategorisiert WeLore Gewichtsmatrizen in Low-Rank-Komponenten (LRCs) und Nicht-Low-Rank-Komponenten (N-LRCs) basierend auf ihrer Fähigkeit, sich als Low-Rank auszudrücken. Unsere Gradientenperspektive und umfangreiche Experimente zeigen, dass LRCs tendenziell über bessere Feintuning-Fähigkeiten verfügen und den Trainingsverlustverlauf und die Leistung des vollständigen Feintunings eng nachahmen (manchmal übertreffen) können, wobei der Speicher- und Rechenbedarf spürbar reduziert wird. Beispielsweise kann das Feintuning eines um 50\% komprimierten LLaMa-2 7B-Modells unter Verwendung nur eines Bruchteils der Parameter in LRCs (WeLore) das vollständige Feintuning mit einer etwa 3-fach besseren Durchsatzleistung und einem etwa 0,6-fach geringeren GPU-Bedarf übertreffen. Unsere Codes sind unter https://github.com/VITA-Group/welore verfügbar.
English
Modern Large Language Models (LLMs) are composed of matrices with billions of
elements, making their storage and processing quite demanding in terms of
computational resources and memory usage. Being significantly large, such
matrices can often be expressed in low-rank format with potential to relax
resource requirements. Unlike prior works which focus on developing novel
matrix decomposition algorithms, in this work we first study the emergence of
low-rank structures across matrices within different layers of LLMs and
establish a consequential relationship between the gradient dynamics and
emerging low-rank expressiveness of matrices. Our findings reveal that
different layers exhibit varying levels of converged low-rank structure,
necessitating a non-uniform rank reduction across them to minimize performance
drop due to compression. In view of that, we present Weight Low-Rank Projection
(WeLore) that unifies weight compression and memory-efficient fine-tuning as
ONE, in a data-agnostic and one-shot way. WeLore capitalizes the heavy-tail
distribution of singular values to identify a suitable rank reduction ratio for
matrices within LLMs. Going beyond only as a compression technique, WeLore
categorizes weight matrices into Low-rank Components (LRCs) and Non-Low-rank
Components (N-LRCs) based on their ability to express themselves as low-rank.
Our gradient perspective and extensive experiments illustrate that LRCs tend to
have better finetuning capabilities and can closely mimic (sometimes
outperform) the training loss trajectory and performance of full-finetuning
with notable memory and compute footprint reduction. For example, finetuning a
50\% compressed LLaMa-2 7B model using only a fraction of parameters in LRCs
(WeLore) can outperform its full finetuning with ~3x better throughput and
~0.6x GPU requirement. Our codes are available at
https://github.com/VITA-Group/weloreSummary
AI-Generated Summary