Qu'est-ce qui est important dans les Transformers ? Toute l'attention n'est pas nécessaire.

papers.abstract

Alors que l'extension des grands modèles de langage basés sur les Transformers (LLM) a montré des performances prometteuses dans diverses tâches, elle introduit également des architectures redondantes, posant des défis d'efficacité pour le déploiement dans le monde réel. Malgré une certaine reconnaissance de la redondance dans les LLM, la variabilité de la redondance à travers différentes architectures dans les transformers, telles que les couches MLP et Attention, est peu explorée. Dans ce travail, nous étudions la redondance à travers différents modules au sein des Transformers, y compris les blocs, les couches MLP et Attention, en utilisant une métrique basée sur la similarité. De manière surprenante, malgré le rôle critique des couches d'attention dans la distinction des transformers des autres architectures, nous avons constaté qu'une grande partie de ces couches présentent une similarité excessivement élevée et peuvent être élaguées sans dégradation des performances. Par exemple, Llama-2-70B a obtenu un gain de vitesse de 48,4\% avec seulement une baisse de performance de 2,4\% en élaguant la moitié des couches d'attention. De plus, en suivant les points de contrôle du modèle tout au long du processus d'entraînement, nous avons observé que la redondance des couches d'attention est inhérente et constante à travers les étapes d'entraînement. De plus, nous proposons une méthode qui abandonne conjointement les couches d'Attention et MLP, nous permettant d'élaguer plus agressivement des couches supplémentaires. Par exemple, en abandonnant 31 couches (Attention + MLP), Llama-2-13B conserve toujours 90\% des performances sur la tâche MMLU. Notre travail fournit des perspectives précieuses pour la conception future des architectures de réseau. Le code est disponible sur : https://github.com/Shwai-He/LLM-Drop.

English

While scaling Transformer-based large language models (LLMs) has demonstrated promising performance across various tasks, it also introduces redundant architectures, posing efficiency challenges for real-world deployment. Despite some recognition of redundancy in LLMs, the variability of redundancy across different architectures in transformers, such as MLP and Attention layers, is under-explored. In this work, we investigate redundancy across different modules within Transformers, including Blocks, MLP, and Attention layers, using a similarity-based metric. Surprisingly, despite the critical role of attention layers in distinguishing transformers from other architectures, we found that a large portion of these layers exhibit excessively high similarity and can be pruned without degrading performance. For instance, Llama-2-70B achieved a 48.4\% speedup with only a 2.4\% performance drop by pruning half of the attention layers. Furthermore, by tracing model checkpoints throughout the training process, we observed that attention layer redundancy is inherent and consistent across training stages. Additionally, we further propose a method that jointly drops Attention and MLP layers, allowing us to more aggressively drop additional layers. For instance, when dropping 31 layers (Attention + MLP), Llama-2-13B still retains 90\% of the performance on the MMLU task. Our work provides valuable insights for future network architecture design. The code is released at: https://github.com/Shwai-He/LLM-Drop.

Qu'est-ce qui est important dans les Transformers ? Toute l'attention n'est pas nécessaire.

What Matters in Transformers? Not All Attention is Needed

papers.abstract

Support