Adattatori a basso rango incontrano la Ricerca di Architetture Neurali per la Compressione di LLM

Abstract

L'ampia diffusione dei Grandi Modelli Linguistici (LLM) ha posto significativi sfasamenti riguardo alle risorse computazionali necessarie per il fine-tuning e il rilascio. Recenti progressi negli adattatori a basso rango hanno dimostrato la loro efficacia nel fine-tuning efficiente dei parametri (PEFT) di questi modelli. Questo articolo retrospettivo discute in modo esaustivo approcci innovativi che sinergizzano rappresentazioni a basso rango con tecniche di Ricerca dell'Architettura Neurale (NAS), in particolare sovra-reti con condivisione di pesi. Soluzioni robuste per la compressione e il fine-tuning di grandi modelli pre-addestrati sono sviluppate integrando queste metodologie. La nostra analisi evidenzia il potenziale di queste strategie combinate per democratizzare l'uso dei LLM, rendendoli più accessibili per il rilascio in ambienti con risorse limitate. I modelli risultanti presentano dimensioni di memoria ridotte e tempi di inferenza più veloci, aprendo la strada a un'applicazione più pratica e scalabile dei LLM. Modelli e codice sono disponibili su https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.

English

The rapid expansion of Large Language Models (LLMs) has posed significant challenges regarding the computational resources required for fine-tuning and deployment. Recent advancements in low-rank adapters have demonstrated their efficacy in parameter-efficient fine-tuning (PEFT) of these models. This retrospective paper comprehensively discusses innovative approaches that synergize low-rank representations with Neural Architecture Search (NAS) techniques, particularly weight-sharing super-networks. Robust solutions for compressing and fine-tuning large pre-trained models are developed by integrating these methodologies. Our analysis highlights the potential of these combined strategies to democratize the use of LLMs, making them more accessible for deployment in resource-constrained environments. The resulting models exhibit reduced memory footprints and faster inference times, paving the way for more practical and scalable applications of LLMs. Models and code are available at https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.

Adattatori a basso rango incontrano la Ricerca di Architetture Neurali per la Compressione di LLM

Low-Rank Adapters Meet Neural Architecture Search for LLM Compression

Abstract

Support