Adaptadores de Bajo Rango se Encuentran con la Búsqueda de Arquitectura Neural para la Compresión de LLM
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression
January 23, 2025
Autores: J. Pablo Muñoz, Jinjie Yuan, Nilesh Jain
cs.AI
Resumen
La rápida expansión de los Modelos de Lenguaje Grandes (LLMs) ha planteado desafíos significativos en cuanto a los recursos computacionales necesarios para el ajuste fino y despliegue. Los avances recientes en adaptadores de bajo rango han demostrado su eficacia en el ajuste fino eficiente en parámetros (PEFT) de estos modelos. Este artículo retrospectivo discute de manera exhaustiva enfoques innovadores que combinan representaciones de bajo rango con técnicas de Búsqueda de Arquitectura Neural (NAS), en particular superredes con compartición de pesos. Se desarrollan soluciones sólidas para comprimir y ajustar finamente modelos pre-entrenados grandes mediante la integración de estas metodologías. Nuestro análisis destaca el potencial de estas estrategias combinadas para democratizar el uso de LLMs, haciéndolos más accesibles para su despliegue en entornos con recursos limitados. Los modelos resultantes muestran huellas de memoria reducidas y tiempos de inferencia más rápidos, allanando el camino para aplicaciones más prácticas y escalables de LLMs. Los modelos y el código están disponibles en https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.
English
The rapid expansion of Large Language Models (LLMs) has posed significant
challenges regarding the computational resources required for fine-tuning and
deployment. Recent advancements in low-rank adapters have demonstrated their
efficacy in parameter-efficient fine-tuning (PEFT) of these models. This
retrospective paper comprehensively discusses innovative approaches that
synergize low-rank representations with Neural Architecture Search (NAS)
techniques, particularly weight-sharing super-networks. Robust solutions for
compressing and fine-tuning large pre-trained models are developed by
integrating these methodologies. Our analysis highlights the potential of these
combined strategies to democratize the use of LLMs, making them more accessible
for deployment in resource-constrained environments. The resulting models
exhibit reduced memory footprints and faster inference times, paving the way
for more practical and scalable applications of LLMs. Models and code are
available at
https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.Summary
AI-Generated Summary