Was ist bei Transformers wichtig? Nicht alle Aufmerksamkeit ist erforderlich.

papers.abstract

Die Skalierung von Transformer-basierten großen Sprachmodellen (LLMs) hat vielversprechende Leistungen in verschiedenen Aufgaben gezeigt, führt jedoch auch redundante Architekturen ein, die Effizienzprobleme bei der Implementierung in der realen Welt darstellen. Obwohl die Redundanz in LLMs teilweise anerkannt wird, ist die Variabilität der Redundanz in verschiedenen Architekturen von Transformatoren, wie MLP- und Aufmerksamkeitsschichten, wenig erforscht. In dieser Arbeit untersuchen wir Redundanzen in verschiedenen Modulen innerhalb von Transformatoren, einschließlich Blöcken, MLP und Aufmerksamkeitsschichten, unter Verwendung eines ähnlichkeitsbasierten Metrik. Überraschenderweise haben wir festgestellt, dass trotz der entscheidenden Rolle von Aufmerksamkeitsschichten bei der Unterscheidung von Transformatoren von anderen Architekturen ein großer Teil dieser Schichten übermäßig hohe Ähnlichkeiten aufweist und ohne Leistungseinbußen beschnitten werden kann. Zum Beispiel erzielte Llama-2-70B durch das Beschneiden der Hälfte der Aufmerksamkeitsschichten eine Beschleunigung um 48,4 % bei nur einem Leistungsabfall von 2,4 %. Darüber hinaus haben wir durch das Verfolgen von Modell-Checkpoints während des Trainingsprozesses festgestellt, dass die Redundanz von Aufmerksamkeitsschichten angeboren ist und über die Trainingsphasen hinweg konsistent bleibt. Darüber hinaus schlagen wir eine Methode vor, die das gleichzeitige Entfernen von Aufmerksamkeits- und MLP-Schichten ermöglicht, um zusätzliche Schichten aggressiver zu entfernen. Zum Beispiel behält Llama-2-13B bei Entfernung von 31 Schichten (Aufmerksamkeit + MLP) immer noch 90 % der Leistung bei der MMLU-Aufgabe bei. Unsere Arbeit liefert wertvolle Erkenntnisse für zukünftiges Design von Netzwerkarchitekturen. Der Code ist verfügbar unter: https://github.com/Shwai-He/LLM-Drop.

English

While scaling Transformer-based large language models (LLMs) has demonstrated promising performance across various tasks, it also introduces redundant architectures, posing efficiency challenges for real-world deployment. Despite some recognition of redundancy in LLMs, the variability of redundancy across different architectures in transformers, such as MLP and Attention layers, is under-explored. In this work, we investigate redundancy across different modules within Transformers, including Blocks, MLP, and Attention layers, using a similarity-based metric. Surprisingly, despite the critical role of attention layers in distinguishing transformers from other architectures, we found that a large portion of these layers exhibit excessively high similarity and can be pruned without degrading performance. For instance, Llama-2-70B achieved a 48.4\% speedup with only a 2.4\% performance drop by pruning half of the attention layers. Furthermore, by tracing model checkpoints throughout the training process, we observed that attention layer redundancy is inherent and consistent across training stages. Additionally, we further propose a method that jointly drops Attention and MLP layers, allowing us to more aggressively drop additional layers. For instance, when dropping 31 layers (Attention + MLP), Llama-2-13B still retains 90\% of the performance on the MMLU task. Our work provides valuable insights for future network architecture design. The code is released at: https://github.com/Shwai-He/LLM-Drop.

Was ist bei Transformers wichtig? Nicht alle Aufmerksamkeit ist erforderlich.

What Matters in Transformers? Not All Attention is Needed

papers.abstract

Support