Adaptateurs de Faible Rang rencontrent la Recherche d'Architecture Neuronale pour la Compression de LLM

papers.abstract

L'expansion rapide des Grands Modèles de Langage (GML) a posé des défis significatifs en ce qui concerne les ressources informatiques nécessaires pour le fine-tuning et le déploiement. Les récents progrès dans les adaptateurs à faible rang ont démontré leur efficacité dans le fine-tuning à efficacité paramétrique (PEFT) de ces modèles. Cet article rétrospectif discute de manière exhaustive des approches innovantes qui combinent les représentations à faible rang avec les techniques de Recherche d'Architecture Neuronale (RAN), en particulier les super-réseaux à partage de poids. Des solutions robustes pour la compression et le fine-tuning de grands modèles pré-entraînés sont développées en intégrant ces méthodologies. Notre analyse met en lumière le potentiel de ces stratégies combinées pour démocratiser l'utilisation des GML, les rendant ainsi plus accessibles pour le déploiement dans des environnements aux ressources limitées. Les modèles résultants présentent des empreintes mémoire réduites et des temps d'inférence plus rapides, ouvrant la voie à des applications plus pratiques et évolutives des GML. Les modèles et le code sont disponibles sur https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.

English

The rapid expansion of Large Language Models (LLMs) has posed significant challenges regarding the computational resources required for fine-tuning and deployment. Recent advancements in low-rank adapters have demonstrated their efficacy in parameter-efficient fine-tuning (PEFT) of these models. This retrospective paper comprehensively discusses innovative approaches that synergize low-rank representations with Neural Architecture Search (NAS) techniques, particularly weight-sharing super-networks. Robust solutions for compressing and fine-tuning large pre-trained models are developed by integrating these methodologies. Our analysis highlights the potential of these combined strategies to democratize the use of LLMs, making them more accessible for deployment in resource-constrained environments. The resulting models exhibit reduced memory footprints and faster inference times, paving the way for more practical and scalable applications of LLMs. Models and code are available at https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.

Adaptateurs de Faible Rang rencontrent la Recherche d'Architecture Neuronale pour la Compression de LLM

Low-Rank Adapters Meet Neural Architecture Search for LLM Compression

papers.abstract

Support