ShortGPT: As camadas em modelos de linguagem de grande escala são mais redundantes do que você imagina.
ShortGPT: Layers in Large Language Models are More Redundant Than You Expect
March 6, 2024
Autores: Xin Men, Mingyu Xu, Qingyu Zhang, Bingning Wang, Hongyu Lin, Yaojie Lu, Xianpei Han, Weipeng Chen
cs.AI
Resumo
À medida que os Modelos de Linguagem de Grande Escala (LLMs) continuam a avançar em desempenho, seu tamanho aumentou significativamente, com os LLMs atuais contendo bilhões ou até trilhões de parâmetros. No entanto, neste estudo, descobrimos que muitas camadas dos LLMs exibem alta similaridade, e algumas camadas desempenham um papel insignificante na funcionalidade da rede. Com base nessa observação, definimos uma métrica chamada Influência do Bloco (Block Influence - BI) para avaliar a importância de cada camada nos LLMs. Em seguida, propomos uma abordagem simples de poda: a remoção de camadas, na qual eliminamos diretamente as camadas redundantes nos LLMs com base em suas pontuações de BI. Experimentos demonstram que nosso método, que chamamos de ShortGPT, supera significativamente os métodos anteriores de poda de modelos considerados state-of-the-art (SOTA). Além disso, o ShortGPT é ortogonal a métodos como a quantização, permitindo uma redução adicional de parâmetros e computação. A capacidade de obter melhores resultados por meio da simples remoção de camadas, em vez de técnicas de poda mais complexas, sugere um alto grau de redundância na arquitetura do modelo.
English
As Large Language Models (LLMs) continue to advance in performance, their
size has escalated significantly, with current LLMs containing billions or even
trillions of parameters. However, in this study, we discovered that many layers
of LLMs exhibit high similarity, and some layers play a negligible role in
network functionality. Based on this observation, we define a metric called
Block Influence (BI) to gauge the significance of each layer in LLMs. We then
propose a straightforward pruning approach: layer removal, in which we directly
delete the redundant layers in LLMs based on their BI scores. Experiments
demonstrate that our method, which we call ShortGPT, significantly outperforms
previous state-of-the-art (SOTA) methods in model pruning. Moreover, ShortGPT
is orthogonal to quantization-like methods, enabling further reduction in
parameters and computation. The ability to achieve better results through
simple layer removal, as opposed to more complex pruning techniques, suggests a
high degree of redundancy in the model architecture.