¿Qué es importante en los Transformers? No toda la atención es necesaria.
What Matters in Transformers? Not All Attention is Needed
June 22, 2024
Autores: Shwai He, Guoheng Sun, Zheyu Shen, Ang Li
cs.AI
Resumen
Si bien escalar modelos de lenguaje grandes (LLMs) basados en Transformadores ha demostrado un rendimiento prometedor en diversas tareas, también introduce arquitecturas redundantes, lo que plantea desafíos de eficiencia para su implementación en el mundo real. A pesar de que se reconoce cierta redundancia en los LLMs, la variabilidad de la redundancia en diferentes arquitecturas de transformadores, como las capas MLP y de Atención, es poco explorada. En este trabajo, investigamos la redundancia en diferentes módulos dentro de los Transformadores, incluyendo Bloques, MLP y capas de Atención, utilizando una métrica basada en similitud. Sorprendentemente, a pesar del papel crítico de las capas de atención para distinguir a los transformadores de otras arquitecturas, encontramos que una gran parte de estas capas exhiben una similitud excesivamente alta y pueden ser podadas sin degradar el rendimiento. Por ejemplo, Llama-2-70B logró una aceleración del 48.4\% al podar la mitad de las capas de atención con solo una caída del rendimiento del 2.4\%. Además, al rastrear los puntos de control del modelo a lo largo del proceso de entrenamiento, observamos que la redundancia en las capas de atención es inherente y consistente en todas las etapas de entrenamiento. Asimismo, proponemos un método que elimina conjuntamente las capas de Atención y MLP, lo que nos permite eliminar capas adicionales de manera más agresiva. Por ejemplo, al eliminar 31 capas (Atención + MLP), Llama-2-13B aún conserva el 90\% del rendimiento en la tarea MMLU. Nuestro trabajo proporciona información valiosa para el diseño futuro de arquitecturas de redes. El código se encuentra disponible en: https://github.com/Shwai-He/LLM-Drop.
English
While scaling Transformer-based large language models (LLMs) has demonstrated
promising performance across various tasks, it also introduces redundant
architectures, posing efficiency challenges for real-world deployment. Despite
some recognition of redundancy in LLMs, the variability of redundancy across
different architectures in transformers, such as MLP and Attention layers, is
under-explored. In this work, we investigate redundancy across different
modules within Transformers, including Blocks, MLP, and Attention layers, using
a similarity-based metric. Surprisingly, despite the critical role of attention
layers in distinguishing transformers from other architectures, we found that a
large portion of these layers exhibit excessively high similarity and can be
pruned without degrading performance. For instance, Llama-2-70B achieved a
48.4\% speedup with only a 2.4\% performance drop by pruning half of the
attention layers. Furthermore, by tracing model checkpoints throughout the
training process, we observed that attention layer redundancy is inherent and
consistent across training stages. Additionally, we further propose a method
that jointly drops Attention and MLP layers, allowing us to more aggressively
drop additional layers. For instance, when dropping 31 layers (Attention +
MLP), Llama-2-13B still retains 90\% of the performance on the MMLU task. Our
work provides valuable insights for future network architecture design. The
code is released at: https://github.com/Shwai-He/LLM-Drop.Summary
AI-Generated Summary