Adaptateurs de Faible Rang rencontrent la Recherche d'Architecture Neuronale pour la Compression de LLM
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression
January 23, 2025
Auteurs: J. Pablo Muñoz, Jinjie Yuan, Nilesh Jain
cs.AI
Résumé
L'expansion rapide des Grands Modèles de Langage (GML) a posé des défis significatifs en ce qui concerne les ressources informatiques nécessaires pour le fine-tuning et le déploiement. Les récents progrès dans les adaptateurs à faible rang ont démontré leur efficacité dans le fine-tuning à efficacité paramétrique (PEFT) de ces modèles. Cet article rétrospectif discute de manière exhaustive des approches innovantes qui combinent les représentations à faible rang avec les techniques de Recherche d'Architecture Neuronale (RAN), en particulier les super-réseaux à partage de poids. Des solutions robustes pour la compression et le fine-tuning de grands modèles pré-entraînés sont développées en intégrant ces méthodologies. Notre analyse met en lumière le potentiel de ces stratégies combinées pour démocratiser l'utilisation des GML, les rendant ainsi plus accessibles pour le déploiement dans des environnements aux ressources limitées. Les modèles résultants présentent des empreintes mémoire réduites et des temps d'inférence plus rapides, ouvrant la voie à des applications plus pratiques et évolutives des GML. Les modèles et le code sont disponibles sur https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.
English
The rapid expansion of Large Language Models (LLMs) has posed significant
challenges regarding the computational resources required for fine-tuning and
deployment. Recent advancements in low-rank adapters have demonstrated their
efficacy in parameter-efficient fine-tuning (PEFT) of these models. This
retrospective paper comprehensively discusses innovative approaches that
synergize low-rank representations with Neural Architecture Search (NAS)
techniques, particularly weight-sharing super-networks. Robust solutions for
compressing and fine-tuning large pre-trained models are developed by
integrating these methodologies. Our analysis highlights the potential of these
combined strategies to democratize the use of LLMs, making them more accessible
for deployment in resource-constrained environments. The resulting models
exhibit reduced memory footprints and faster inference times, paving the way
for more practical and scalable applications of LLMs. Models and code are
available at
https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.Summary
AI-Generated Summary