ShortGPT : Les couches des grands modèles de langage sont plus redondantes que vous ne l'imaginez
ShortGPT: Layers in Large Language Models are More Redundant Than You Expect
March 6, 2024
Auteurs: Xin Men, Mingyu Xu, Qingyu Zhang, Bingning Wang, Hongyu Lin, Yaojie Lu, Xianpei Han, Weipeng Chen
cs.AI
Résumé
Alors que les modèles de langage de grande taille (LLMs) continuent d'améliorer leurs performances, leur taille a considérablement augmenté, les LLMs actuels contenant des milliards, voire des milliers de milliards de paramètres. Cependant, dans cette étude, nous avons découvert que de nombreuses couches des LLMs présentent une similarité élevée, et que certaines couches jouent un rôle négligeable dans la fonctionnalité du réseau. Sur la base de cette observation, nous définissons une métrique appelée Influence de Bloc (Block Influence, BI) pour évaluer l'importance de chaque couche dans les LLMs. Nous proposons ensuite une approche d'élagage simple : la suppression de couches, dans laquelle nous supprimons directement les couches redondantes des LLMs en fonction de leurs scores BI. Les expériences montrent que notre méthode, que nous appelons ShortGPT, surpasse significativement les méthodes précédentes de pointe (SOTA) en matière d'élagage de modèles. De plus, ShortGPT est orthogonal aux méthodes de type quantification, permettant une réduction supplémentaire des paramètres et des calculs. La capacité à obtenir de meilleurs résultats grâce à une simple suppression de couches, par opposition à des techniques d'élagage plus complexes, suggère un degré élevé de redondance dans l'architecture du modèle.
English
As Large Language Models (LLMs) continue to advance in performance, their
size has escalated significantly, with current LLMs containing billions or even
trillions of parameters. However, in this study, we discovered that many layers
of LLMs exhibit high similarity, and some layers play a negligible role in
network functionality. Based on this observation, we define a metric called
Block Influence (BI) to gauge the significance of each layer in LLMs. We then
propose a straightforward pruning approach: layer removal, in which we directly
delete the redundant layers in LLMs based on their BI scores. Experiments
demonstrate that our method, which we call ShortGPT, significantly outperforms
previous state-of-the-art (SOTA) methods in model pruning. Moreover, ShortGPT
is orthogonal to quantization-like methods, enabling further reduction in
parameters and computation. The ability to achieve better results through
simple layer removal, as opposed to more complex pruning techniques, suggests a
high degree of redundancy in the model architecture.