ShortGPT: Lagen in grote taalmodellen zijn redundanter dan je zou verwachten
ShortGPT: Layers in Large Language Models are More Redundant Than You Expect
March 6, 2024
Auteurs: Xin Men, Mingyu Xu, Qingyu Zhang, Bingning Wang, Hongyu Lin, Yaojie Lu, Xianpei Han, Weipeng Chen
cs.AI
Samenvatting
Naarmate Large Language Models (LLMs) blijven verbeteren in prestaties, is hun omvang aanzienlijk toegenomen, waarbij huidige LLMs miljarden of zelfs biljoenen parameters bevatten. In deze studie hebben we echter ontdekt dat veel lagen in LLMs een hoge gelijkenis vertonen, en dat sommige lagen een verwaarloosbare rol spelen in de functionaliteit van het netwerk. Op basis van deze observatie definiëren we een metriek genaamd Block Influence (BI) om het belang van elke laag in LLMs te beoordelen. Vervolgens stellen we een eenvoudige pruningmethode voor: het verwijderen van lagen, waarbij we direct overbodige lagen in LLMs verwijderen op basis van hun BI-scores. Experimenten tonen aan dat onze methode, die we ShortGPT noemen, aanzienlijk beter presteert dan eerdere state-of-the-art (SOTA) methoden voor modelpruning. Bovendien is ShortGPT orthogonaal aan methoden zoals kwantisatie, waardoor verdere reductie van parameters en berekeningen mogelijk is. Het vermogen om betere resultaten te behalen door eenvoudige laagverwijdering, in plaats van complexere pruningtechnieken, suggereert een hoge mate van redundantie in de modelarchitectuur.
English
As Large Language Models (LLMs) continue to advance in performance, their
size has escalated significantly, with current LLMs containing billions or even
trillions of parameters. However, in this study, we discovered that many layers
of LLMs exhibit high similarity, and some layers play a negligible role in
network functionality. Based on this observation, we define a metric called
Block Influence (BI) to gauge the significance of each layer in LLMs. We then
propose a straightforward pruning approach: layer removal, in which we directly
delete the redundant layers in LLMs based on their BI scores. Experiments
demonstrate that our method, which we call ShortGPT, significantly outperforms
previous state-of-the-art (SOTA) methods in model pruning. Moreover, ShortGPT
is orthogonal to quantization-like methods, enabling further reduction in
parameters and computation. The ability to achieve better results through
simple layer removal, as opposed to more complex pruning techniques, suggests a
high degree of redundancy in the model architecture.