LLaMA Reduzido: Uma Simples Poda em Profundidade para Modelos de Linguagem de Grande Escala

Resumo

A poda estruturada de modelos de linguagem grandes (LLMs) modernos surgiu como uma forma de reduzir suas altas demandas computacionais. A poda em largura diminui o tamanho das matrizes de pesos de projeção (por exemplo, removendo cabeças de atenção) enquanto mantém o número de camadas. A poda em profundidade, por outro lado, remove camadas ou blocos inteiros, mantendo o tamanho dos pesos restantes inalterado. A maior parte da pesquisa atual se concentra apenas na poda em largura ou em uma combinação de poda em largura e profundidade, com pouca análise comparativa entre as duas unidades (largura versus profundidade) em relação ao seu impacto na eficiência de inferência de LLMs. Neste trabalho, mostramos que uma abordagem simples de poda em profundidade pode competir com métodos recentes de poda em largura em termos de desempenho em tarefas zero-shot. Nosso método de poda aumenta a velocidade de inferência, especialmente em condições com restrições de memória que exigem tamanhos de lote limitados para executar LLMs, onde a poda em largura é ineficaz. Esperamos que este trabalho possa ajudar a implantar LLMs em dispositivos locais e de borda.

English

Structured pruning of modern large language models (LLMs) has emerged as a way of decreasing their high computational needs. Width pruning reduces the size of projection weight matrices (e.g., by removing attention heads) while maintaining the number of layers. Depth pruning, in contrast, removes entire layers or blocks, while keeping the size of the remaining weights unchanged. Most current research focuses on either width-only or a blend of width and depth pruning, with little comparative analysis between the two units (width vs. depth) concerning their impact on LLM inference efficiency. In this work, we show that a simple depth pruning approach can compete with recent width pruning methods in terms of zero-shot task performance. Our pruning method boosts inference speeds, especially under memory-constrained conditions that require limited batch sizes for running LLMs, where width pruning is ineffective. We hope this work can help deploy LLMs on local and edge devices.

LLaMA Reduzido: Uma Simples Poda em Profundidade para Modelos de Linguagem de Grande Escala

Shortened LLaMA: A Simple Depth Pruning for Large Language Models

Resumo

Support