Адаптеры низкого ранга встречают поиск нейронной архитектуры для сжатия LLM.
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression
January 23, 2025
Авторы: J. Pablo Muñoz, Jinjie Yuan, Nilesh Jain
cs.AI
Аннотация
Быстрое расширение моделей с большим языковым объемом (LLM) создало значительные вызовы в отношении вычислительных ресурсов, необходимых для настройки и развертывания. Недавние достижения в области адаптеров с низким рангом продемонстрировали их эффективность в параметрической настройке с эффективным использованием ресурсов (PEFT) этих моделей. В данной ретроспективной статье подробно обсуждаются инновационные подходы, совмещающие низкоранговые представления с техниками поиска нейронной архитектуры (NAS), в частности, суперсети с общими весами. Надежные решения для сжатия и настройки больших предварительно обученных моделей разрабатываются путем интеграции этих методологий. Наш анализ подчеркивает потенциал этих комбинированных стратегий для демократизации использования LLM, сделав их более доступными для развертывания в ресурсоограниченных средах. Полученные модели обладают уменьшенным объемом памяти и более быстрыми временами вывода, что открывает путь для более практичных и масштабируемых приложений LLM. Модели и код доступны по адресу https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.
English
The rapid expansion of Large Language Models (LLMs) has posed significant
challenges regarding the computational resources required for fine-tuning and
deployment. Recent advancements in low-rank adapters have demonstrated their
efficacy in parameter-efficient fine-tuning (PEFT) of these models. This
retrospective paper comprehensively discusses innovative approaches that
synergize low-rank representations with Neural Architecture Search (NAS)
techniques, particularly weight-sharing super-networks. Robust solutions for
compressing and fine-tuning large pre-trained models are developed by
integrating these methodologies. Our analysis highlights the potential of these
combined strategies to democratize the use of LLMs, making them more accessible
for deployment in resource-constrained environments. The resulting models
exhibit reduced memory footprints and faster inference times, paving the way
for more practical and scalable applications of LLMs. Models and code are
available at
https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.Summary
AI-Generated Summary