¿Qué es importante en los Transformers? No toda la atención es necesaria.

Resumen

Si bien escalar modelos de lenguaje grandes (LLMs) basados en Transformadores ha demostrado un rendimiento prometedor en diversas tareas, también introduce arquitecturas redundantes, lo que plantea desafíos de eficiencia para su implementación en el mundo real. A pesar de que se reconoce cierta redundancia en los LLMs, la variabilidad de la redundancia en diferentes arquitecturas de transformadores, como las capas MLP y de Atención, es poco explorada. En este trabajo, investigamos la redundancia en diferentes módulos dentro de los Transformadores, incluyendo Bloques, MLP y capas de Atención, utilizando una métrica basada en similitud. Sorprendentemente, a pesar del papel crítico de las capas de atención para distinguir a los transformadores de otras arquitecturas, encontramos que una gran parte de estas capas exhiben una similitud excesivamente alta y pueden ser podadas sin degradar el rendimiento. Por ejemplo, Llama-2-70B logró una aceleración del 48.4\% al podar la mitad de las capas de atención con solo una caída del rendimiento del 2.4\%. Además, al rastrear los puntos de control del modelo a lo largo del proceso de entrenamiento, observamos que la redundancia en las capas de atención es inherente y consistente en todas las etapas de entrenamiento. Asimismo, proponemos un método que elimina conjuntamente las capas de Atención y MLP, lo que nos permite eliminar capas adicionales de manera más agresiva. Por ejemplo, al eliminar 31 capas (Atención + MLP), Llama-2-13B aún conserva el 90\% del rendimiento en la tarea MMLU. Nuestro trabajo proporciona información valiosa para el diseño futuro de arquitecturas de redes. El código se encuentra disponible en: https://github.com/Shwai-He/LLM-Drop.

English

While scaling Transformer-based large language models (LLMs) has demonstrated promising performance across various tasks, it also introduces redundant architectures, posing efficiency challenges for real-world deployment. Despite some recognition of redundancy in LLMs, the variability of redundancy across different architectures in transformers, such as MLP and Attention layers, is under-explored. In this work, we investigate redundancy across different modules within Transformers, including Blocks, MLP, and Attention layers, using a similarity-based metric. Surprisingly, despite the critical role of attention layers in distinguishing transformers from other architectures, we found that a large portion of these layers exhibit excessively high similarity and can be pruned without degrading performance. For instance, Llama-2-70B achieved a 48.4\% speedup with only a 2.4\% performance drop by pruning half of the attention layers. Furthermore, by tracing model checkpoints throughout the training process, we observed that attention layer redundancy is inherent and consistent across training stages. Additionally, we further propose a method that jointly drops Attention and MLP layers, allowing us to more aggressively drop additional layers. For instance, when dropping 31 layers (Attention + MLP), Llama-2-13B still retains 90\% of the performance on the MMLU task. Our work provides valuable insights for future network architecture design. The code is released at: https://github.com/Shwai-He/LLM-Drop.

¿Qué es importante en los Transformers? No toda la atención es necesaria.

What Matters in Transformers? Not All Attention is Needed

Resumen

Support