Adaptadores de Baixa Ordem Encontram a Busca de Arquitetura Neural para Compressão de LLM
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression
January 23, 2025
Autores: J. Pablo Muñoz, Jinjie Yuan, Nilesh Jain
cs.AI
Resumo
A rápida expansão dos Modelos de Linguagem Grandes (LLMs) tem apresentado desafios significativos em relação aos recursos computacionais necessários para ajuste fino e implantação. Avanços recentes em adaptadores de baixa ordem demonstraram sua eficácia no ajuste fino eficiente de parâmetros (PEFT) desses modelos. Este artigo retrospectivo discute de forma abrangente abordagens inovadoras que sinergizam representações de baixa ordem com técnicas de Busca de Arquitetura Neural (NAS), particularmente super-redes de compartilhamento de pesos. Soluções robustas para compressão e ajuste fino de grandes modelos pré-treinados são desenvolvidas ao integrar essas metodologias. Nossa análise destaca o potencial dessas estratégias combinadas para democratizar o uso de LLMs, tornando-os mais acessíveis para implantação em ambientes com recursos limitados. Os modelos resultantes apresentam pegadas de memória reduzidas e tempos de inferência mais rápidos, abrindo caminho para aplicações mais práticas e escaláveis de LLMs. Modelos e código estão disponíveis em https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.
English
The rapid expansion of Large Language Models (LLMs) has posed significant
challenges regarding the computational resources required for fine-tuning and
deployment. Recent advancements in low-rank adapters have demonstrated their
efficacy in parameter-efficient fine-tuning (PEFT) of these models. This
retrospective paper comprehensively discusses innovative approaches that
synergize low-rank representations with Neural Architecture Search (NAS)
techniques, particularly weight-sharing super-networks. Robust solutions for
compressing and fine-tuning large pre-trained models are developed by
integrating these methodologies. Our analysis highlights the potential of these
combined strategies to democratize the use of LLMs, making them more accessible
for deployment in resource-constrained environments. The resulting models
exhibit reduced memory footprints and faster inference times, paving the way
for more practical and scalable applications of LLMs. Models and code are
available at
https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.Summary
AI-Generated Summary