Значимое остаточное обучение для смягчения концентрации внимания в трансформерах
Value Residual Learning For Alleviating Attention Concentration In Transformers
October 23, 2024
Авторы: Zhanchao Zhou, Tianyi Wu, Zhiyun Jiang, Zhenzhong Lan
cs.AI
Аннотация
Трансформеры могут захватывать зависимости на большие расстояния с помощью самовнимания, позволяя токенам обращаться к другим напрямую. Однако стек из нескольких слоев внимания приводит к концентрации внимания. Один из естественных способов решить эту проблему - использовать внимание между слоями, позволяя информации из более ранних слоев быть непосредственно доступной более поздним слоям. Однако такой подход требует больших вычислительных затрат. Для решения этой проблемы мы предлагаем Трансформер с остаточным значением (ResFormer), который приближает внимание между слоями путем добавления остаточного соединения от значений первого слоя ко всем последующим слоям. На основе этого метода один из вариантов - Трансформер со значением одного слоя (SVFormer), где все слои используют одно и то же встраивание значений из первого слоя, сокращая кэш KV почти на 50%. Обширные эмпирические доказательства показывают, что ResFormer смягчает проблему концентрации внимания в более глубоких слоях и улучшает представление на большинстве слоев, превосходя обычный Трансформер, DenseFormer и NeuTRENO как по ошибке обучения, так и по вспомогательным задачам. SVFormer обучается значительно быстрее, чем обычный Трансформер, и показывает лучшие результаты по сравнению с другими методами, такими как GQA и CLA, с производительностью, зависящей от длины последовательности и накопленной скорости обучения.
English
Transformers can capture long-range dependencies using self-attention,
allowing tokens to attend to all others directly. However, stacking multiple
attention layers leads to attention concentration. One natural way to address
this issue is to use cross-layer attention, allowing information from earlier
layers to be directly accessible to later layers. However, this approach is
computationally expensive. To address this problem, we propose Transformer with
residual value (ResFormer) which approximates cross-layer attention through
adding a residual connection from the values of the the first layer to all
subsequent layers. Based on this method, one variant is the Transformer with
single layer value (SVFormer), where all layers share the same value embedding
from first layer, reducing the KV cache by nearly 50%. Comprehensive empirical
evidence demonstrates that ResFormer mitigates attention concentration problem
in deeper layers and enhances representation across most layers, outperforming
the vanilla Transformer, DenseFormer, and NeuTRENO in training error as well as
downstream tasks. SVFormer trains significantly faster than the vanilla
Transformer and performs better than other methods like GQA and CLA, with
performance influenced by sequence length and cumulative learning rate.Summary
AI-Generated Summary