ChatPaper.aiChatPaper

Aprendizaje Residual de Valor para Aliviar la Concentración de Atención en Transformadores

Value Residual Learning For Alleviating Attention Concentration In Transformers

October 23, 2024
Autores: Zhanchao Zhou, Tianyi Wu, Zhiyun Jiang, Zhenzhong Lan
cs.AI

Resumen

Los Transformers pueden capturar dependencias de largo alcance utilizando autoatención, permitiendo que los tokens atiendan directamente a todos los demás. Sin embargo, apilar múltiples capas de atención conlleva a concentración de atención. Una forma natural de abordar este problema es utilizar atención entre capas, permitiendo que la información de capas anteriores sea accesible directamente por capas posteriores. Sin embargo, este enfoque es computacionalmente costoso. Para resolver este problema, proponemos el Transformer con valor residual (ResFormer) que aproxima la atención entre capas mediante la adición de una conexión residual desde los valores de la primera capa a todas las capas subsiguientes. Basado en este método, una variante es el Transformer con valor de una sola capa (SVFormer), donde todas las capas comparten el mismo incrustado de valor desde la primera capa, reduciendo la caché KV en casi un 50%. Evidencia empírica exhaustiva demuestra que ResFormer mitiga el problema de concentración de atención en capas más profundas y mejora la representación en la mayoría de las capas, superando al Transformer convencional, DenseFormer y NeuTRENO en error de entrenamiento, así como en tareas posteriores. SVFormer se entrena significativamente más rápido que el Transformer convencional y tiene un mejor rendimiento que otros métodos como GQA y CLA, con el rendimiento influenciado por la longitud de la secuencia y la tasa de aprendizaje acumulativa.
English
Transformers can capture long-range dependencies using self-attention, allowing tokens to attend to all others directly. However, stacking multiple attention layers leads to attention concentration. One natural way to address this issue is to use cross-layer attention, allowing information from earlier layers to be directly accessible to later layers. However, this approach is computationally expensive. To address this problem, we propose Transformer with residual value (ResFormer) which approximates cross-layer attention through adding a residual connection from the values of the the first layer to all subsequent layers. Based on this method, one variant is the Transformer with single layer value (SVFormer), where all layers share the same value embedding from first layer, reducing the KV cache by nearly 50%. Comprehensive empirical evidence demonstrates that ResFormer mitigates attention concentration problem in deeper layers and enhances representation across most layers, outperforming the vanilla Transformer, DenseFormer, and NeuTRENO in training error as well as downstream tasks. SVFormer trains significantly faster than the vanilla Transformer and performs better than other methods like GQA and CLA, with performance influenced by sequence length and cumulative learning rate.

Summary

AI-Generated Summary

PDF92November 16, 2024