ShortGPT: Las capas en los modelos de lenguaje grande son más redundantes de lo que esperas
ShortGPT: Layers in Large Language Models are More Redundant Than You Expect
March 6, 2024
Autores: Xin Men, Mingyu Xu, Qingyu Zhang, Bingning Wang, Hongyu Lin, Yaojie Lu, Xianpei Han, Weipeng Chen
cs.AI
Resumen
A medida que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) continúan avanzando en rendimiento, su tamaño ha aumentado significativamente, con los LLMs actuales conteniendo miles de millones o incluso billones de parámetros. Sin embargo, en este estudio, descubrimos que muchas capas de los LLMs presentan una alta similitud, y algunas capas desempeñan un papel insignificante en la funcionalidad de la red. Basándonos en esta observación, definimos una métrica llamada Influencia de Bloque (BI, por sus siglas en inglés) para evaluar la importancia de cada capa en los LLMs. Luego, proponemos un enfoque de poda sencillo: la eliminación de capas, en el cual eliminamos directamente las capas redundantes en los LLMs según sus puntuaciones de BI. Los experimentos demuestran que nuestro método, al que llamamos ShortGPT, supera significativamente a los métodos anteriores de última generación (SOTA, por sus siglas en inglés) en la poda de modelos. Además, ShortGPT es ortogonal a métodos de cuantización, lo que permite una mayor reducción en los parámetros y el cómputo. La capacidad de lograr mejores resultados mediante la simple eliminación de capas, en lugar de técnicas de poda más complejas, sugiere un alto grado de redundancia en la arquitectura del modelo.
English
As Large Language Models (LLMs) continue to advance in performance, their
size has escalated significantly, with current LLMs containing billions or even
trillions of parameters. However, in this study, we discovered that many layers
of LLMs exhibit high similarity, and some layers play a negligible role in
network functionality. Based on this observation, we define a metric called
Block Influence (BI) to gauge the significance of each layer in LLMs. We then
propose a straightforward pruning approach: layer removal, in which we directly
delete the redundant layers in LLMs based on their BI scores. Experiments
demonstrate that our method, which we call ShortGPT, significantly outperforms
previous state-of-the-art (SOTA) methods in model pruning. Moreover, ShortGPT
is orthogonal to quantization-like methods, enabling further reduction in
parameters and computation. The ability to achieve better results through
simple layer removal, as opposed to more complex pruning techniques, suggests a
high degree of redundancy in the model architecture.