ShortGPT: I livelli nei modelli linguistici di grandi dimensioni sono più ridondanti di quanto ci si aspetti
ShortGPT: Layers in Large Language Models are More Redundant Than You Expect
March 6, 2024
Autori: Xin Men, Mingyu Xu, Qingyu Zhang, Bingning Wang, Hongyu Lin, Yaojie Lu, Xianpei Han, Weipeng Chen
cs.AI
Abstract
Man mano che i Large Language Model (LLM) continuano a migliorare le loro prestazioni, le loro dimensioni sono aumentate in modo significativo, con gli attuali LLM che contengono miliardi o addirittura trilioni di parametri. Tuttavia, in questo studio, abbiamo scoperto che molti strati dei LLM presentano un'elevata similarità e che alcuni strati svolgono un ruolo trascurabile nella funzionalità della rete. Sulla base di questa osservazione, definiamo una metrica chiamata Block Influence (BI) per valutare l'importanza di ciascuno strato nei LLM. Proponiamo quindi un approccio semplice di pruning: la rimozione degli strati, in cui eliminiamo direttamente gli strati ridondanti nei LLM in base ai loro punteggi BI. Gli esperimenti dimostrano che il nostro metodo, che chiamiamo ShortGPT, supera significativamente i precedenti metodi all'avanguardia (SOTA) nel pruning dei modelli. Inoltre, ShortGPT è ortogonale a metodi simili alla quantizzazione, consentendo un'ulteriore riduzione dei parametri e del calcolo. La capacità di ottenere risultati migliori attraverso la semplice rimozione degli strati, rispetto a tecniche di pruning più complesse, suggerisce un elevato grado di ridondanza nell'architettura del modello.
English
As Large Language Models (LLMs) continue to advance in performance, their
size has escalated significantly, with current LLMs containing billions or even
trillions of parameters. However, in this study, we discovered that many layers
of LLMs exhibit high similarity, and some layers play a negligible role in
network functionality. Based on this observation, we define a metric called
Block Influence (BI) to gauge the significance of each layer in LLMs. We then
propose a straightforward pruning approach: layer removal, in which we directly
delete the redundant layers in LLMs based on their BI scores. Experiments
demonstrate that our method, which we call ShortGPT, significantly outperforms
previous state-of-the-art (SOTA) methods in model pruning. Moreover, ShortGPT
is orthogonal to quantization-like methods, enabling further reduction in
parameters and computation. The ability to achieve better results through
simple layer removal, as opposed to more complex pruning techniques, suggests a
high degree of redundancy in the model architecture.