LoRAShear: Poda Estructurada Eficiente de Modelos de Lenguaje de Gran Escala y Recuperación de Conocimiento
LoRAShear: Efficient Large Language Model Structured Pruning and Knowledge Recovery
October 24, 2023
Autores: Tianyi Chen, Tianyu Ding, Badal Yadav, Ilya Zharkov, Luming Liang
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han transformado el panorama de la inteligencia artificial, aunque su enorme tamaño presenta desafíos significativos en términos de costos computacionales. Presentamos LoRAShear, un enfoque novedoso y eficiente para podar estructuralmente los LLMs y recuperar conocimiento. Dados los LLMs generales, LoRAShear primero crea gráficos de dependencia para descubrir estructuras de eliminación mínima y analizar la distribución del conocimiento. Luego, procede con una poda estructurada progresiva en los adaptadores LoRA y permite la transferencia inherente de conocimiento para preservar mejor la información en las estructuras redundantes. Para recuperar el conocimiento perdido durante la poda, LoRAShear estudia meticulosamente y propone esquemas de ajuste fino dinámico con adaptadores de datos dinámicos para reducir efectivamente la brecha de rendimiento con respecto a los modelos completos. Los resultados numéricos demuestran que, utilizando solo una GPU en un par de días de procesamiento, LoRAShear redujo efectivamente la huella de los LLMs en un 20% con solo un 1.0% de degradación en el rendimiento, superando significativamente a los métodos más avanzados. El código fuente estará disponible en https://github.com/microsoft/lorashear.
English
Large Language Models (LLMs) have transformed the landscape of artificial
intelligence, while their enormous size presents significant challenges in
terms of computational costs. We introduce LoRAShear, a novel efficient
approach to structurally prune LLMs and recover knowledge. Given general LLMs,
LoRAShear first creates the dependency graphs to discover minimally removal
structures and analyze the knowledge distribution. It then proceeds progressive
structured pruning on LoRA adaptors and enables inherent knowledge transfer to
better preserve the information in the redundant structures. To recover the
lost knowledge during pruning, LoRAShear meticulously studies and proposes a
dynamic fine-tuning schemes with dynamic data adaptors to effectively narrow
down the performance gap to the full models. Numerical results demonstrate that
by only using one GPU within a couple of GPU days, LoRAShear effectively
reduced footprint of LLMs by 20% with only 1.0% performance degradation and
significantly outperforms state-of-the-arts. The source code will be available
at https://github.com/microsoft/lorashear.