LoRAShear: Poda Estructurada Eficiente de Modelos de Lenguaje de Gran Escala y Recuperación de Conocimiento

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han transformado el panorama de la inteligencia artificial, aunque su enorme tamaño presenta desafíos significativos en términos de costos computacionales. Presentamos LoRAShear, un enfoque novedoso y eficiente para podar estructuralmente los LLMs y recuperar conocimiento. Dados los LLMs generales, LoRAShear primero crea gráficos de dependencia para descubrir estructuras de eliminación mínima y analizar la distribución del conocimiento. Luego, procede con una poda estructurada progresiva en los adaptadores LoRA y permite la transferencia inherente de conocimiento para preservar mejor la información en las estructuras redundantes. Para recuperar el conocimiento perdido durante la poda, LoRAShear estudia meticulosamente y propone esquemas de ajuste fino dinámico con adaptadores de datos dinámicos para reducir efectivamente la brecha de rendimiento con respecto a los modelos completos. Los resultados numéricos demuestran que, utilizando solo una GPU en un par de días de procesamiento, LoRAShear redujo efectivamente la huella de los LLMs en un 20% con solo un 1.0% de degradación en el rendimiento, superando significativamente a los métodos más avanzados. El código fuente estará disponible en https://github.com/microsoft/lorashear.

English

Large Language Models (LLMs) have transformed the landscape of artificial intelligence, while their enormous size presents significant challenges in terms of computational costs. We introduce LoRAShear, a novel efficient approach to structurally prune LLMs and recover knowledge. Given general LLMs, LoRAShear first creates the dependency graphs to discover minimally removal structures and analyze the knowledge distribution. It then proceeds progressive structured pruning on LoRA adaptors and enables inherent knowledge transfer to better preserve the information in the redundant structures. To recover the lost knowledge during pruning, LoRAShear meticulously studies and proposes a dynamic fine-tuning schemes with dynamic data adaptors to effectively narrow down the performance gap to the full models. Numerical results demonstrate that by only using one GPU within a couple of GPU days, LoRAShear effectively reduced footprint of LLMs by 20% with only 1.0% performance degradation and significantly outperforms state-of-the-arts. The source code will be available at https://github.com/microsoft/lorashear.

LoRAShear: Poda Estructurada Eficiente de Modelos de Lenguaje de Gran Escala y Recuperación de Conocimiento

LoRAShear: Efficient Large Language Model Structured Pruning and Knowledge Recovery

Resumen

Support