LLaMA Reduzido: Uma Simples Poda em Profundidade para Modelos de Linguagem de Grande Escala
Shortened LLaMA: A Simple Depth Pruning for Large Language Models
February 5, 2024
Autores: Bo-Kyeong Kim, Geonmin Kim, Tae-Ho Kim, Thibault Castells, Shinkook Choi, Junho Shin, Hyoung-Kyu Song
cs.AI
Resumo
A poda estruturada de modelos de linguagem grandes (LLMs) modernos surgiu como uma forma de reduzir suas altas demandas computacionais. A poda em largura diminui o tamanho das matrizes de pesos de projeção (por exemplo, removendo cabeças de atenção) enquanto mantém o número de camadas. A poda em profundidade, por outro lado, remove camadas ou blocos inteiros, mantendo o tamanho dos pesos restantes inalterado. A maior parte da pesquisa atual se concentra apenas na poda em largura ou em uma combinação de poda em largura e profundidade, com pouca análise comparativa entre as duas unidades (largura versus profundidade) em relação ao seu impacto na eficiência de inferência de LLMs. Neste trabalho, mostramos que uma abordagem simples de poda em profundidade pode competir com métodos recentes de poda em largura em termos de desempenho em tarefas zero-shot. Nosso método de poda aumenta a velocidade de inferência, especialmente em condições com restrições de memória que exigem tamanhos de lote limitados para executar LLMs, onde a poda em largura é ineficaz. Esperamos que este trabalho possa ajudar a implantar LLMs em dispositivos locais e de borda.
English
Structured pruning of modern large language models (LLMs) has emerged as a
way of decreasing their high computational needs. Width pruning reduces the
size of projection weight matrices (e.g., by removing attention heads) while
maintaining the number of layers. Depth pruning, in contrast, removes entire
layers or blocks, while keeping the size of the remaining weights unchanged.
Most current research focuses on either width-only or a blend of width and
depth pruning, with little comparative analysis between the two units (width
vs. depth) concerning their impact on LLM inference efficiency. In this work,
we show that a simple depth pruning approach can compete with recent width
pruning methods in terms of zero-shot task performance. Our pruning method
boosts inference speeds, especially under memory-constrained conditions that
require limited batch sizes for running LLMs, where width pruning is
ineffective. We hope this work can help deploy LLMs on local and edge devices.