LoRAShear: Poda Estruturada Eficiente de Modelos de Linguagem de Grande Porte e Recuperação de Conhecimento
LoRAShear: Efficient Large Language Model Structured Pruning and Knowledge Recovery
October 24, 2023
Autores: Tianyi Chen, Tianyu Ding, Badal Yadav, Ilya Zharkov, Luming Liang
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) transformaram o cenário da inteligência artificial, embora seu enorme tamanho apresente desafios significativos em termos de custos computacionais. Apresentamos o LoRAShear, uma nova abordagem eficiente para podar estruturalmente LLMs e recuperar conhecimento. Dado um LLM geral, o LoRAShear primeiro cria gráficos de dependência para descobrir estruturas de remoção mínima e analisar a distribuição de conhecimento. Em seguida, realiza uma poda estrutural progressiva nos adaptadores LoRA e permite a transferência inerente de conhecimento para preservar melhor a informação nas estruturas redundantes. Para recuperar o conhecimento perdido durante a poda, o LoRAShear estuda minuciosamente e propõe esquemas de ajuste fino dinâmico com adaptadores de dados dinâmicos para reduzir efetivamente a lacuna de desempenho em relação aos modelos completos. Resultados numéricos demonstram que, utilizando apenas uma GPU em alguns dias de processamento, o LoRAShear reduziu efetivamente a pegada dos LLMs em 20% com apenas 1,0% de degradação de desempenho, superando significativamente os métodos mais avançados. O código-fonte estará disponível em https://github.com/microsoft/lorashear.
English
Large Language Models (LLMs) have transformed the landscape of artificial
intelligence, while their enormous size presents significant challenges in
terms of computational costs. We introduce LoRAShear, a novel efficient
approach to structurally prune LLMs and recover knowledge. Given general LLMs,
LoRAShear first creates the dependency graphs to discover minimally removal
structures and analyze the knowledge distribution. It then proceeds progressive
structured pruning on LoRA adaptors and enables inherent knowledge transfer to
better preserve the information in the redundant structures. To recover the
lost knowledge during pruning, LoRAShear meticulously studies and proposes a
dynamic fine-tuning schemes with dynamic data adaptors to effectively narrow
down the performance gap to the full models. Numerical results demonstrate that
by only using one GPU within a couple of GPU days, LoRAShear effectively
reduced footprint of LLMs by 20% with only 1.0% performance degradation and
significantly outperforms state-of-the-arts. The source code will be available
at https://github.com/microsoft/lorashear.