De GaLore a WeLore: Cómo los pesos de baja jerarquía emergen de forma no uniforme a partir de gradientes de baja jerarquía.
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients
July 15, 2024
Autores: Ajay Jaiswal, Lu Yin, Zhenyu Zhang, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang
cs.AI
Resumen
Los Modelos de Lenguaje Grandes Modernos (LLMs, por sus siglas en inglés) están compuestos por matrices con miles de millones de elementos, lo que hace que su almacenamiento y procesamiento sean bastante exigentes en términos de recursos computacionales y uso de memoria. Dado su considerable tamaño, estas matrices a menudo pueden expresarse en un formato de rango bajo con el potencial de reducir los requisitos de recursos. A diferencia de trabajos anteriores que se centran en el desarrollo de algoritmos novedosos de descomposición de matrices, en este trabajo primero estudiamos la aparición de estructuras de rango bajo en matrices dentro de diferentes capas de LLMs y establecemos una relación consecuente entre la dinámica del gradiente y la expresividad emergente de rango bajo de las matrices. Nuestros hallazgos revelan que diferentes capas muestran niveles variables de estructuras de rango bajo convergentes, lo que hace necesario realizar una reducción de rango no uniforme en ellas para minimizar la disminución del rendimiento debido a la compresión. En vista de ello, presentamos la Proyección de Bajo Rango de Pesos (WeLore) que unifica la compresión de pesos y el ajuste fino eficiente en memoria como UNO, de manera agnóstica a los datos y en un solo paso. WeLore capitaliza la distribución de colas pesadas de valores singulares para identificar una proporción adecuada de reducción de rango para las matrices dentro de LLMs. Yendo más allá de ser solo una técnica de compresión, WeLore categoriza las matrices de pesos en Componentes de Bajo Rango (LRCs) y Componentes No de Bajo Rango (N-LRCs) según su capacidad de expresarse como de bajo rango. Nuestra perspectiva del gradiente y experimentos extensos ilustran que los LRCs tienden a tener mejores capacidades de ajuste fino y pueden imitar de cerca (a veces superar) la trayectoria de pérdida de entrenamiento y el rendimiento de un ajuste fino completo con una notable reducción de la huella de memoria y cálculo. Por ejemplo, el ajuste fino de un modelo LLaMa-27B comprimido al 50\% utilizando solo una fracción de parámetros en LRCs (WeLore) puede superar su ajuste fino completo con una mejora de ~3 veces en la velocidad y un requisito de GPU de ~0.6 veces. Nuestros códigos están disponibles en https://github.com/VITA-Group/welore
English
Modern Large Language Models (LLMs) are composed of matrices with billions of
elements, making their storage and processing quite demanding in terms of
computational resources and memory usage. Being significantly large, such
matrices can often be expressed in low-rank format with potential to relax
resource requirements. Unlike prior works which focus on developing novel
matrix decomposition algorithms, in this work we first study the emergence of
low-rank structures across matrices within different layers of LLMs and
establish a consequential relationship between the gradient dynamics and
emerging low-rank expressiveness of matrices. Our findings reveal that
different layers exhibit varying levels of converged low-rank structure,
necessitating a non-uniform rank reduction across them to minimize performance
drop due to compression. In view of that, we present Weight Low-Rank Projection
(WeLore) that unifies weight compression and memory-efficient fine-tuning as
ONE, in a data-agnostic and one-shot way. WeLore capitalizes the heavy-tail
distribution of singular values to identify a suitable rank reduction ratio for
matrices within LLMs. Going beyond only as a compression technique, WeLore
categorizes weight matrices into Low-rank Components (LRCs) and Non-Low-rank
Components (N-LRCs) based on their ability to express themselves as low-rank.
Our gradient perspective and extensive experiments illustrate that LRCs tend to
have better finetuning capabilities and can closely mimic (sometimes
outperform) the training loss trajectory and performance of full-finetuning
with notable memory and compute footprint reduction. For example, finetuning a
50\% compressed LLaMa-2 7B model using only a fraction of parameters in LRCs
(WeLore) can outperform its full finetuning with ~3x better throughput and
~0.6x GPU requirement. Our codes are available at
https://github.com/VITA-Group/weloreSummary
AI-Generated Summary