LLaMA Ridotto: Una Semplice Potatura in Profondità per Modelli Linguistici di Grandi Dimensioni

Abstract

Il pruning strutturato dei moderni modelli linguistici di grandi dimensioni (LLM) è emerso come un modo per ridurre i loro elevati requisiti computazionali. Il pruning in larghezza riduce le dimensioni delle matrici di peso di proiezione (ad esempio, rimuovendo le teste di attenzione) mantenendo invariato il numero di strati. Il pruning in profondità, al contrario, rimuove interi strati o blocchi, mantenendo inalterate le dimensioni dei pesi rimanenti. La maggior parte della ricerca attuale si concentra esclusivamente sul pruning in larghezza o su una combinazione di pruning in larghezza e profondità, con poche analisi comparative tra le due unità (larghezza vs. profondità) riguardo al loro impatto sull'efficienza inferenziale degli LLM. In questo lavoro, dimostriamo che un semplice approccio di pruning in profondità può competere con i recenti metodi di pruning in larghezza in termini di prestazioni su task zero-shot. Il nostro metodo di pruning migliora la velocità di inferenza, specialmente in condizioni di memoria limitata che richiedono dimensioni di batch ridotte per l'esecuzione degli LLM, dove il pruning in larghezza risulta inefficace. Speriamo che questo lavoro possa contribuire a implementare gli LLM su dispositivi locali e periferici.

English

Structured pruning of modern large language models (LLMs) has emerged as a way of decreasing their high computational needs. Width pruning reduces the size of projection weight matrices (e.g., by removing attention heads) while maintaining the number of layers. Depth pruning, in contrast, removes entire layers or blocks, while keeping the size of the remaining weights unchanged. Most current research focuses on either width-only or a blend of width and depth pruning, with little comparative analysis between the two units (width vs. depth) concerning their impact on LLM inference efficiency. In this work, we show that a simple depth pruning approach can compete with recent width pruning methods in terms of zero-shot task performance. Our pruning method boosts inference speeds, especially under memory-constrained conditions that require limited batch sizes for running LLMs, where width pruning is ineffective. We hope this work can help deploy LLMs on local and edge devices.

LLaMA Ridotto: Una Semplice Potatura in Profondità per Modelli Linguistici di Grandi Dimensioni

Shortened LLaMA: A Simple Depth Pruning for Large Language Models

Abstract

Support