KurzGPT: Schichten in großen Sprachmodellen sind redundanter als erwartet.
ShortGPT: Layers in Large Language Models are More Redundant Than You Expect
March 6, 2024
Autoren: Xin Men, Mingyu Xu, Qingyu Zhang, Bingning Wang, Hongyu Lin, Yaojie Lu, Xianpei Han, Weipeng Chen
cs.AI
Zusammenfassung
Mit der kontinuierlichen Verbesserung der Leistung von Large Language Models (LLMs) ist ihre Größe signifikant angestiegen, wobei aktuelle LLMs Milliarden oder sogar Billionen von Parametern enthalten. In dieser Studie haben wir jedoch festgestellt, dass viele Schichten von LLMs eine hohe Ähnlichkeit aufweisen und einige Schichten eine vernachlässigbare Rolle in der Netzwerkfunktionalität spielen. Basierend auf dieser Beobachtung definieren wir eine Metrik namens Block Influence (BI), um die Bedeutung jeder Schicht in LLMs zu bewerten. Anschließend schlagen wir einen einfachen Pruning-Ansatz vor: das Entfernen von Schichten, bei dem wir die redundanten Schichten in LLMs direkt aufgrund ihrer BI-Werte löschen. Experimente zeigen, dass unsere Methode, die wir ShortGPT nennen, signifikant bessere Leistungen als bisherige State-of-the-Art (SOTA) Methoden beim Modell-Pruning erzielt. Darüber hinaus ist ShortGPT orthogonal zu Quantisierungsähnlichen Methoden, was eine weitere Reduzierung von Parametern und Berechnungen ermöglicht. Die Fähigkeit, bessere Ergebnisse durch einfaches Entfernen von Schichten zu erzielen, im Gegensatz zu komplexeren Pruning-Techniken, deutet auf einen hohen Grad an Redundanz in der Modellarchitektur hin.
English
As Large Language Models (LLMs) continue to advance in performance, their
size has escalated significantly, with current LLMs containing billions or even
trillions of parameters. However, in this study, we discovered that many layers
of LLMs exhibit high similarity, and some layers play a negligible role in
network functionality. Based on this observation, we define a metric called
Block Influence (BI) to gauge the significance of each layer in LLMs. We then
propose a straightforward pruning approach: layer removal, in which we directly
delete the redundant layers in LLMs based on their BI scores. Experiments
demonstrate that our method, which we call ShortGPT, significantly outperforms
previous state-of-the-art (SOTA) methods in model pruning. Moreover, ShortGPT
is orthogonal to quantization-like methods, enabling further reduction in
parameters and computation. The ability to achieve better results through
simple layer removal, as opposed to more complex pruning techniques, suggests a
high degree of redundancy in the model architecture.