De GaLore a WeLore: Cómo los pesos de baja jerarquía emergen de forma no uniforme a partir de gradientes de baja jerarquía.

Resumen

Los Modelos de Lenguaje Grandes Modernos (LLMs, por sus siglas en inglés) están compuestos por matrices con miles de millones de elementos, lo que hace que su almacenamiento y procesamiento sean bastante exigentes en términos de recursos computacionales y uso de memoria. Dado su considerable tamaño, estas matrices a menudo pueden expresarse en un formato de rango bajo con el potencial de reducir los requisitos de recursos. A diferencia de trabajos anteriores que se centran en el desarrollo de algoritmos novedosos de descomposición de matrices, en este trabajo primero estudiamos la aparición de estructuras de rango bajo en matrices dentro de diferentes capas de LLMs y establecemos una relación consecuente entre la dinámica del gradiente y la expresividad emergente de rango bajo de las matrices. Nuestros hallazgos revelan que diferentes capas muestran niveles variables de estructuras de rango bajo convergentes, lo que hace necesario realizar una reducción de rango no uniforme en ellas para minimizar la disminución del rendimiento debido a la compresión. En vista de ello, presentamos la Proyección de Bajo Rango de Pesos (WeLore) que unifica la compresión de pesos y el ajuste fino eficiente en memoria como UNO, de manera agnóstica a los datos y en un solo paso. WeLore capitaliza la distribución de colas pesadas de valores singulares para identificar una proporción adecuada de reducción de rango para las matrices dentro de LLMs. Yendo más allá de ser solo una técnica de compresión, WeLore categoriza las matrices de pesos en Componentes de Bajo Rango (LRCs) y Componentes No de Bajo Rango (N-LRCs) según su capacidad de expresarse como de bajo rango. Nuestra perspectiva del gradiente y experimentos extensos ilustran que los LRCs tienden a tener mejores capacidades de ajuste fino y pueden imitar de cerca (a veces superar) la trayectoria de pérdida de entrenamiento y el rendimiento de un ajuste fino completo con una notable reducción de la huella de memoria y cálculo. Por ejemplo, el ajuste fino de un modelo LLaMa-27B comprimido al 50\% utilizando solo una fracción de parámetros en LRCs (WeLore) puede superar su ajuste fino completo con una mejora de ~3 veces en la velocidad y un requisito de GPU de ~0.6 veces. Nuestros códigos están disponibles en https://github.com/VITA-Group/welore

English

Modern Large Language Models (LLMs) are composed of matrices with billions of elements, making their storage and processing quite demanding in terms of computational resources and memory usage. Being significantly large, such matrices can often be expressed in low-rank format with potential to relax resource requirements. Unlike prior works which focus on developing novel matrix decomposition algorithms, in this work we first study the emergence of low-rank structures across matrices within different layers of LLMs and establish a consequential relationship between the gradient dynamics and emerging low-rank expressiveness of matrices. Our findings reveal that different layers exhibit varying levels of converged low-rank structure, necessitating a non-uniform rank reduction across them to minimize performance drop due to compression. In view of that, we present Weight Low-Rank Projection (WeLore) that unifies weight compression and memory-efficient fine-tuning as ONE, in a data-agnostic and one-shot way. WeLore capitalizes the heavy-tail distribution of singular values to identify a suitable rank reduction ratio for matrices within LLMs. Going beyond only as a compression technique, WeLore categorizes weight matrices into Low-rank Components (LRCs) and Non-Low-rank Components (N-LRCs) based on their ability to express themselves as low-rank. Our gradient perspective and extensive experiments illustrate that LRCs tend to have better finetuning capabilities and can closely mimic (sometimes outperform) the training loss trajectory and performance of full-finetuning with notable memory and compute footprint reduction. For example, finetuning a 50\% compressed LLaMa-2 7B model using only a fraction of parameters in LRCs (WeLore) can outperform its full finetuning with ~3x better throughput and ~0.6x GPU requirement. Our codes are available at https://github.com/VITA-Group/welore

De GaLore a WeLore: Cómo los pesos de baja jerarquía emergen de forma no uniforme a partir de gradientes de baja jerarquía.

From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

Resumen

Support