ShortGPT: Слои в больших языковых моделях более избыточны, чем вы ожидаете
ShortGPT: Layers in Large Language Models are More Redundant Than You Expect
March 6, 2024
Авторы: Xin Men, Mingyu Xu, Qingyu Zhang, Bingning Wang, Hongyu Lin, Yaojie Lu, Xianpei Han, Weipeng Chen
cs.AI
Аннотация
По мере улучшения производительности больших языковых моделей (LLM) их размер значительно увеличился, и текущие LLM содержат миллиарды или даже триллионы параметров. Однако в данном исследовании мы обнаружили, что многие слои LLM проявляют высокую схожесть, и некоторые слои играют незначительную роль в функционировании сети. Исходя из этого наблюдения, мы определяем метрику, называемую Влияние Блока (BI), для оценки значимости каждого слоя в LLM. Затем мы предлагаем простой подход к обрезке: удаление слоя, при котором мы непосредственно удаляем избыточные слои в LLM на основе их оценок BI. Эксперименты показывают, что наш метод, который мы называем ShortGPT, значительно превосходит предыдущие методы состояния искусства (SOTA) в обрезке модели. Более того, ShortGPT ортогонален методам, подобным квантованию, что позволяет дополнительно уменьшить количество параметров и вычислений. Возможность достижения лучших результатов путем простого удаления слоев, в отличие от более сложных техник обрезки, указывает на высокую степень избыточности в архитектуре модели.
English
As Large Language Models (LLMs) continue to advance in performance, their
size has escalated significantly, with current LLMs containing billions or even
trillions of parameters. However, in this study, we discovered that many layers
of LLMs exhibit high similarity, and some layers play a negligible role in
network functionality. Based on this observation, we define a metric called
Block Influence (BI) to gauge the significance of each layer in LLMs. We then
propose a straightforward pruning approach: layer removal, in which we directly
delete the redundant layers in LLMs based on their BI scores. Experiments
demonstrate that our method, which we call ShortGPT, significantly outperforms
previous state-of-the-art (SOTA) methods in model pruning. Moreover, ShortGPT
is orthogonal to quantization-like methods, enabling further reduction in
parameters and computation. The ability to achieve better results through
simple layer removal, as opposed to more complex pruning techniques, suggests a
high degree of redundancy in the model architecture.