Aprendizado Residual de Valor Para Aliviar a Concentração de Atenção em Transformers
Value Residual Learning For Alleviating Attention Concentration In Transformers
October 23, 2024
Autores: Zhanchao Zhou, Tianyi Wu, Zhiyun Jiang, Zhenzhong Lan
cs.AI
Resumo
Os Transformers podem capturar dependências de longo alcance usando autoatenção, permitindo que os tokens atendam diretamente a todos os outros. No entanto, empilhar várias camadas de atenção leva à concentração de atenção. Uma maneira natural de lidar com esse problema é usar atenção entre camadas, permitindo que informações das camadas anteriores sejam acessíveis diretamente às camadas posteriores. No entanto, essa abordagem é computacionalmente cara. Para resolver esse problema, propomos o Transformer com valor residual (ResFormer), que aproxima a atenção entre camadas através da adição de uma conexão residual dos valores da primeira camada para todas as camadas subsequentes. Com base nesse método, uma variante é o Transformer com valor de camada única (SVFormer), onde todas as camadas compartilham o mesmo valor de incorporação da primeira camada, reduzindo o cache KV em quase 50%. Evidências empíricas abrangentes demonstram que o ResFormer mitiga o problema de concentração de atenção em camadas mais profundas e aprimora a representação em várias camadas, superando o Transformer comum, DenseFormer e NeuTRENO em erro de treinamento, bem como em tarefas subsequentes. O SVFormer treina significativamente mais rápido que o Transformer comum e tem um desempenho melhor do que outros métodos como GQA e CLA, com o desempenho influenciado pelo comprimento da sequência e pela taxa de aprendizado acumulada.
English
Transformers can capture long-range dependencies using self-attention,
allowing tokens to attend to all others directly. However, stacking multiple
attention layers leads to attention concentration. One natural way to address
this issue is to use cross-layer attention, allowing information from earlier
layers to be directly accessible to later layers. However, this approach is
computationally expensive. To address this problem, we propose Transformer with
residual value (ResFormer) which approximates cross-layer attention through
adding a residual connection from the values of the the first layer to all
subsequent layers. Based on this method, one variant is the Transformer with
single layer value (SVFormer), where all layers share the same value embedding
from first layer, reducing the KV cache by nearly 50%. Comprehensive empirical
evidence demonstrates that ResFormer mitigates attention concentration problem
in deeper layers and enhances representation across most layers, outperforming
the vanilla Transformer, DenseFormer, and NeuTRENO in training error as well as
downstream tasks. SVFormer trains significantly faster than the vanilla
Transformer and performs better than other methods like GQA and CLA, with
performance influenced by sequence length and cumulative learning rate.Summary
AI-Generated Summary