LoRAShear: Poda Estruturada Eficiente de Modelos de Linguagem de Grande Porte e Recuperação de Conhecimento

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) transformaram o cenário da inteligência artificial, embora seu enorme tamanho apresente desafios significativos em termos de custos computacionais. Apresentamos o LoRAShear, uma nova abordagem eficiente para podar estruturalmente LLMs e recuperar conhecimento. Dado um LLM geral, o LoRAShear primeiro cria gráficos de dependência para descobrir estruturas de remoção mínima e analisar a distribuição de conhecimento. Em seguida, realiza uma poda estrutural progressiva nos adaptadores LoRA e permite a transferência inerente de conhecimento para preservar melhor a informação nas estruturas redundantes. Para recuperar o conhecimento perdido durante a poda, o LoRAShear estuda minuciosamente e propõe esquemas de ajuste fino dinâmico com adaptadores de dados dinâmicos para reduzir efetivamente a lacuna de desempenho em relação aos modelos completos. Resultados numéricos demonstram que, utilizando apenas uma GPU em alguns dias de processamento, o LoRAShear reduziu efetivamente a pegada dos LLMs em 20% com apenas 1,0% de degradação de desempenho, superando significativamente os métodos mais avançados. O código-fonte estará disponível em https://github.com/microsoft/lorashear.

English

Large Language Models (LLMs) have transformed the landscape of artificial intelligence, while their enormous size presents significant challenges in terms of computational costs. We introduce LoRAShear, a novel efficient approach to structurally prune LLMs and recover knowledge. Given general LLMs, LoRAShear first creates the dependency graphs to discover minimally removal structures and analyze the knowledge distribution. It then proceeds progressive structured pruning on LoRA adaptors and enables inherent knowledge transfer to better preserve the information in the redundant structures. To recover the lost knowledge during pruning, LoRAShear meticulously studies and proposes a dynamic fine-tuning schemes with dynamic data adaptors to effectively narrow down the performance gap to the full models. Numerical results demonstrate that by only using one GPU within a couple of GPU days, LoRAShear effectively reduced footprint of LLMs by 20% with only 1.0% performance degradation and significantly outperforms state-of-the-arts. The source code will be available at https://github.com/microsoft/lorashear.

LoRAShear: Poda Estruturada Eficiente de Modelos de Linguagem de Grande Porte e Recuperação de Conhecimento

LoRAShear: Efficient Large Language Model Structured Pruning and Knowledge Recovery

Resumo

Support