Значимое остаточное обучение для смягчения концентрации внимания в трансформерах

Аннотация

Трансформеры могут захватывать зависимости на большие расстояния с помощью самовнимания, позволяя токенам обращаться к другим напрямую. Однако стек из нескольких слоев внимания приводит к концентрации внимания. Один из естественных способов решить эту проблему - использовать внимание между слоями, позволяя информации из более ранних слоев быть непосредственно доступной более поздним слоям. Однако такой подход требует больших вычислительных затрат. Для решения этой проблемы мы предлагаем Трансформер с остаточным значением (ResFormer), который приближает внимание между слоями путем добавления остаточного соединения от значений первого слоя ко всем последующим слоям. На основе этого метода один из вариантов - Трансформер со значением одного слоя (SVFormer), где все слои используют одно и то же встраивание значений из первого слоя, сокращая кэш KV почти на 50%. Обширные эмпирические доказательства показывают, что ResFormer смягчает проблему концентрации внимания в более глубоких слоях и улучшает представление на большинстве слоев, превосходя обычный Трансформер, DenseFormer и NeuTRENO как по ошибке обучения, так и по вспомогательным задачам. SVFormer обучается значительно быстрее, чем обычный Трансформер, и показывает лучшие результаты по сравнению с другими методами, такими как GQA и CLA, с производительностью, зависящей от длины последовательности и накопленной скорости обучения.

English

Transformers can capture long-range dependencies using self-attention, allowing tokens to attend to all others directly. However, stacking multiple attention layers leads to attention concentration. One natural way to address this issue is to use cross-layer attention, allowing information from earlier layers to be directly accessible to later layers. However, this approach is computationally expensive. To address this problem, we propose Transformer with residual value (ResFormer) which approximates cross-layer attention through adding a residual connection from the values of the the first layer to all subsequent layers. Based on this method, one variant is the Transformer with single layer value (SVFormer), where all layers share the same value embedding from first layer, reducing the KV cache by nearly 50%. Comprehensive empirical evidence demonstrates that ResFormer mitigates attention concentration problem in deeper layers and enhances representation across most layers, outperforming the vanilla Transformer, DenseFormer, and NeuTRENO in training error as well as downstream tasks. SVFormer trains significantly faster than the vanilla Transformer and performs better than other methods like GQA and CLA, with performance influenced by sequence length and cumulative learning rate.

Значимое остаточное обучение для смягчения концентрации внимания в трансформерах

Value Residual Learning For Alleviating Attention Concentration In Transformers

Аннотация

Support