Ripensare la compressione: modellazione a ordine ridotto delle caratteristiche latenti nei modelli linguistici su larga scala

Abstract

A causa della notevole scala dei Modelli Linguistici di Grandi Dimensioni (LLMs), l'applicazione diretta delle metodologie di compressione convenzionali si rivela impraticabile. Le esigenze computazionali associate anche ai minimi aggiornamenti dei gradienti presentano sfide significative, specialmente su hardware di livello consumer. Questo articolo introduce un approccio innovativo per la compressione parametrica e pratica degli LLMs basato sulla modellizzazione a ordine ridotto, che implica la decomposizione a basso rango nello spazio delle caratteristiche e la ri-parametrizzazione nello spazio dei pesi. È importante notare che questa tecnica di compressione opera in modo strato per strato, eliminando la necessità di un dispositivo GPU e consentendo la compressione di modelli su scala miliardi entro vincoli stringenti sia di memoria che di tempo. Il nostro metodo rappresenta un progresso significativo nella compressione dei modelli sfruttando la decomposizione matriciale, dimostrando un'efficacia superiore rispetto al metodo prevalente di potatura strutturata allo stato dell'arte.

English

Due to the substantial scale of Large Language Models (LLMs), the direct application of conventional compression methodologies proves impractical. The computational demands associated with even minimal gradient updates present challenges, particularly on consumer-grade hardware. This paper introduces an innovative approach for the parametric and practical compression of LLMs based on reduced order modelling, which entails low-rank decomposition within the feature space and re-parameterization in the weight space. Notably, this compression technique operates in a layer-wise manner, obviating the need for a GPU device and enabling the compression of billion-scale models within stringent constraints of both memory and time. Our method represents a significant advancement in model compression by leveraging matrix decomposition, demonstrating superior efficacy compared to the prevailing state-of-the-art structured pruning method.

Ripensare la compressione: modellazione a ordine ridotto delle caratteristiche latenti nei modelli linguistici su larga scala

Rethinking Compression: Reduced Order Modelling of Latent Features in Large Language Models

Abstract

Support