O Que Importa nos Transformers? Nem Toda Atenção é Necessária

Resumo

Embora a ampliação de modelos de linguagem grandes (LLMs) baseados em Transformers tenha demonstrado um desempenho promissor em várias tarefas, também introduz arquiteturas redundantes, apresentando desafios de eficiência para implementações do mundo real. Apesar do reconhecimento de alguma redundância nos LLMs, a variabilidade da redundância entre diferentes arquiteturas nos transformers, como camadas MLP e de Atenção, é pouco explorada. Neste trabalho, investigamos a redundância entre diferentes módulos dentro dos Transformers, incluindo Blocos, MLP e camadas de Atenção, utilizando uma métrica baseada em similaridade. Surpreendentemente, apesar do papel crítico das camadas de atenção em distinguir os transformers de outras arquiteturas, descobrimos que uma grande parte dessas camadas exibe uma similaridade excessivamente alta e pode ser podada sem degradar o desempenho. Por exemplo, o Llama-2-70B obteve uma aceleração de 48,4\% ao podar metade das camadas de atenção, com apenas uma queda de desempenho de 2,4\%. Além disso, ao rastrear checkpoints do modelo ao longo do processo de treinamento, observamos que a redundância nas camadas de atenção é inerente e consistente em todas as etapas de treinamento. Adicionalmente, propomos um método que elimina conjuntamente camadas de Atenção e MLP, permitindo-nos podar camadas adicionais de forma mais agressiva. Por exemplo, ao eliminar 31 camadas (Atenção + MLP), o Llama-2-13B ainda mantém 90\% do desempenho na tarefa MMLU. Nosso trabalho fornece insights valiosos para o design futuro de arquiteturas de rede. O código está disponível em: https://github.com/Shwai-He/LLM-Drop.

English

While scaling Transformer-based large language models (LLMs) has demonstrated promising performance across various tasks, it also introduces redundant architectures, posing efficiency challenges for real-world deployment. Despite some recognition of redundancy in LLMs, the variability of redundancy across different architectures in transformers, such as MLP and Attention layers, is under-explored. In this work, we investigate redundancy across different modules within Transformers, including Blocks, MLP, and Attention layers, using a similarity-based metric. Surprisingly, despite the critical role of attention layers in distinguishing transformers from other architectures, we found that a large portion of these layers exhibit excessively high similarity and can be pruned without degrading performance. For instance, Llama-2-70B achieved a 48.4\% speedup with only a 2.4\% performance drop by pruning half of the attention layers. Furthermore, by tracing model checkpoints throughout the training process, we observed that attention layer redundancy is inherent and consistent across training stages. Additionally, we further propose a method that jointly drops Attention and MLP layers, allowing us to more aggressively drop additional layers. For instance, when dropping 31 layers (Attention + MLP), Llama-2-13B still retains 90\% of the performance on the MMLU task. Our work provides valuable insights for future network architecture design. The code is released at: https://github.com/Shwai-He/LLM-Drop.

O Que Importa nos Transformers? Nem Toda Atenção é Necessária

What Matters in Transformers? Not All Attention is Needed

Resumo

Support