Adattatori a basso rango incontrano la Ricerca di Architetture Neurali per la Compressione di LLM
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression
January 23, 2025
Autori: J. Pablo Muñoz, Jinjie Yuan, Nilesh Jain
cs.AI
Abstract
L'ampia diffusione dei Grandi Modelli Linguistici (LLM) ha posto significativi
sfasamenti riguardo alle risorse computazionali necessarie per il fine-tuning e
il rilascio. Recenti progressi negli adattatori a basso rango hanno dimostrato la loro
efficacia nel fine-tuning efficiente dei parametri (PEFT) di questi modelli. Questo
articolo retrospettivo discute in modo esaustivo approcci innovativi che
sinergizzano rappresentazioni a basso rango con tecniche di Ricerca dell'Architettura Neurale (NAS),
in particolare sovra-reti con condivisione di pesi. Soluzioni robuste per
la compressione e il fine-tuning di grandi modelli pre-addestrati sono sviluppate
integrando queste metodologie. La nostra analisi evidenzia il potenziale di queste
strategie combinate per democratizzare l'uso dei LLM, rendendoli più accessibili
per il rilascio in ambienti con risorse limitate. I modelli risultanti
presentano dimensioni di memoria ridotte e tempi di inferenza più veloci, aprendo la strada
a un'applicazione più pratica e scalabile dei LLM. Modelli e codice sono
disponibili su
https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.
English
The rapid expansion of Large Language Models (LLMs) has posed significant
challenges regarding the computational resources required for fine-tuning and
deployment. Recent advancements in low-rank adapters have demonstrated their
efficacy in parameter-efficient fine-tuning (PEFT) of these models. This
retrospective paper comprehensively discusses innovative approaches that
synergize low-rank representations with Neural Architecture Search (NAS)
techniques, particularly weight-sharing super-networks. Robust solutions for
compressing and fine-tuning large pre-trained models are developed by
integrating these methodologies. Our analysis highlights the potential of these
combined strategies to democratize the use of LLMs, making them more accessible
for deployment in resource-constrained environments. The resulting models
exhibit reduced memory footprints and faster inference times, paving the way
for more practical and scalable applications of LLMs. Models and code are
available at
https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.Summary
AI-Generated Summary