LLaMA Ridotto: Una Semplice Potatura in Profondità per Modelli Linguistici di Grandi Dimensioni
Shortened LLaMA: A Simple Depth Pruning for Large Language Models
February 5, 2024
Autori: Bo-Kyeong Kim, Geonmin Kim, Tae-Ho Kim, Thibault Castells, Shinkook Choi, Junho Shin, Hyoung-Kyu Song
cs.AI
Abstract
Il pruning strutturato dei moderni modelli linguistici di grandi dimensioni (LLM) è emerso come un modo per ridurre i loro elevati requisiti computazionali. Il pruning in larghezza riduce le dimensioni delle matrici di peso di proiezione (ad esempio, rimuovendo le teste di attenzione) mantenendo invariato il numero di strati. Il pruning in profondità, al contrario, rimuove interi strati o blocchi, mantenendo inalterate le dimensioni dei pesi rimanenti. La maggior parte della ricerca attuale si concentra esclusivamente sul pruning in larghezza o su una combinazione di pruning in larghezza e profondità, con poche analisi comparative tra le due unità (larghezza vs. profondità) riguardo al loro impatto sull'efficienza inferenziale degli LLM. In questo lavoro, dimostriamo che un semplice approccio di pruning in profondità può competere con i recenti metodi di pruning in larghezza in termini di prestazioni su task zero-shot. Il nostro metodo di pruning migliora la velocità di inferenza, specialmente in condizioni di memoria limitata che richiedono dimensioni di batch ridotte per l'esecuzione degli LLM, dove il pruning in larghezza risulta inefficace. Speriamo che questo lavoro possa contribuire a implementare gli LLM su dispositivi locali e periferici.
English
Structured pruning of modern large language models (LLMs) has emerged as a
way of decreasing their high computational needs. Width pruning reduces the
size of projection weight matrices (e.g., by removing attention heads) while
maintaining the number of layers. Depth pruning, in contrast, removes entire
layers or blocks, while keeping the size of the remaining weights unchanged.
Most current research focuses on either width-only or a blend of width and
depth pruning, with little comparative analysis between the two units (width
vs. depth) concerning their impact on LLM inference efficiency. In this work,
we show that a simple depth pruning approach can compete with recent width
pruning methods in terms of zero-shot task performance. Our pruning method
boosts inference speeds, especially under memory-constrained conditions that
require limited batch sizes for running LLMs, where width pruning is
ineffective. We hope this work can help deploy LLMs on local and edge devices.