Что важно в трансформерах? Не всегда требуется вся внимательность.
What Matters in Transformers? Not All Attention is Needed
June 22, 2024
Авторы: Shwai He, Guoheng Sun, Zheyu Shen, Ang Li
cs.AI
Аннотация
При масштабировании крупных языковых моделей (LLM) на основе трансформера продемонстрировано многообещающее качество работы в различных задачах, однако это также вносит избыточные архитектуры, представляя вызовы эффективности для реального применения. Несмотря на некоторое признание избыточности в LLM, вариабельность избыточности в различных архитектурах трансформеров, таких как слои MLP и Attention, остается мало исследованной. В данной работе мы исследуем избыточность в различных модулях внутри трансформеров, включая блоки, слои MLP и Attention, с использованием метрики на основе сходства. Удивительно, несмотря на критическую роль слоев внимания в отличии трансформеров от других архитектур, мы обнаружили, что значительная часть этих слоев обладает чрезмерно высоким сходством и может быть обрезана без ухудшения производительности. Например, Llama-2-70B достигла ускорения на 48,4\% при обрезке половины слоев внимания при падении производительности всего на 2,4\%. Более того, отслеживая контрольные точки модели на протяжении процесса обучения, мы обнаружили, что избыточность слоев внимания присуща и постоянна на протяжении этапов обучения. Кроме того, мы предлагаем метод, который совместно удаляет слои Attention и MLP, что позволяет более агрессивно удалять дополнительные слои. Например, при удалении 31 слоя (Attention + MLP), Llama-2-13B все равно сохраняет 90\% производительности в задаче MMLU. Наша работа предоставляет ценные идеи для дальнейшего проектирования архитектуры сетей. Код доступен по ссылке: https://github.com/Shwai-He/LLM-Drop.
English
While scaling Transformer-based large language models (LLMs) has demonstrated
promising performance across various tasks, it also introduces redundant
architectures, posing efficiency challenges for real-world deployment. Despite
some recognition of redundancy in LLMs, the variability of redundancy across
different architectures in transformers, such as MLP and Attention layers, is
under-explored. In this work, we investigate redundancy across different
modules within Transformers, including Blocks, MLP, and Attention layers, using
a similarity-based metric. Surprisingly, despite the critical role of attention
layers in distinguishing transformers from other architectures, we found that a
large portion of these layers exhibit excessively high similarity and can be
pruned without degrading performance. For instance, Llama-2-70B achieved a
48.4\% speedup with only a 2.4\% performance drop by pruning half of the
attention layers. Furthermore, by tracing model checkpoints throughout the
training process, we observed that attention layer redundancy is inherent and
consistent across training stages. Additionally, we further propose a method
that jointly drops Attention and MLP layers, allowing us to more aggressively
drop additional layers. For instance, when dropping 31 layers (Attention +
MLP), Llama-2-13B still retains 90\% of the performance on the MMLU task. Our
work provides valuable insights for future network architecture design. The
code is released at: https://github.com/Shwai-He/LLM-Drop.Summary
AI-Generated Summary