ShortGPT: As camadas em modelos de linguagem de grande escala são mais redundantes do que você imagina.

Resumo

À medida que os Modelos de Linguagem de Grande Escala (LLMs) continuam a avançar em desempenho, seu tamanho aumentou significativamente, com os LLMs atuais contendo bilhões ou até trilhões de parâmetros. No entanto, neste estudo, descobrimos que muitas camadas dos LLMs exibem alta similaridade, e algumas camadas desempenham um papel insignificante na funcionalidade da rede. Com base nessa observação, definimos uma métrica chamada Influência do Bloco (Block Influence - BI) para avaliar a importância de cada camada nos LLMs. Em seguida, propomos uma abordagem simples de poda: a remoção de camadas, na qual eliminamos diretamente as camadas redundantes nos LLMs com base em suas pontuações de BI. Experimentos demonstram que nosso método, que chamamos de ShortGPT, supera significativamente os métodos anteriores de poda de modelos considerados state-of-the-art (SOTA). Além disso, o ShortGPT é ortogonal a métodos como a quantização, permitindo uma redução adicional de parâmetros e computação. A capacidade de obter melhores resultados por meio da simples remoção de camadas, em vez de técnicas de poda mais complexas, sugere um alto grau de redundância na arquitetura do modelo.

English

As Large Language Models (LLMs) continue to advance in performance, their size has escalated significantly, with current LLMs containing billions or even trillions of parameters. However, in this study, we discovered that many layers of LLMs exhibit high similarity, and some layers play a negligible role in network functionality. Based on this observation, we define a metric called Block Influence (BI) to gauge the significance of each layer in LLMs. We then propose a straightforward pruning approach: layer removal, in which we directly delete the redundant layers in LLMs based on their BI scores. Experiments demonstrate that our method, which we call ShortGPT, significantly outperforms previous state-of-the-art (SOTA) methods in model pruning. Moreover, ShortGPT is orthogonal to quantization-like methods, enabling further reduction in parameters and computation. The ability to achieve better results through simple layer removal, as opposed to more complex pruning techniques, suggests a high degree of redundancy in the model architecture.

ShortGPT: As camadas em modelos de linguagem de grande escala são mais redundantes do que você imagina.

ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

Resumo

Support