Cure el dolor de cabeza de los Transformers mediante Atención con Restricción Colineal
Cure the headache of Transformers via Collinear Constrained Attention
September 15, 2023
Autores: Shiyi Zhu, Jing Ye, Wei Jiang, Qi Zhang, Yifan Wu, Jianguo Li
cs.AI
Resumen
A medida que avanza rápidamente el desarrollo de aplicaciones prácticas basadas en modelos de lenguaje de gran escala (LLM), la importancia de extrapolar el rendimiento ha crecido exponencialmente en el ámbito de la investigación. En nuestro estudio, identificamos un comportamiento anómalo en los modelos Transformer que había pasado desapercibido anteriormente, lo que generó un caos en torno a los tokens más cercanos que contenían la información más relevante. Hemos denominado a este descubrimiento la "dolencia de los Transformers". Para abordar este problema en su raíz, introdujimos una nueva estructura de autoatención llamada Atención con Restricción Colineal (CoCA, por sus siglas en inglés). Esta estructura puede integrarse sin problemas con métodos existentes de extrapolación, interpolación y otras estrategias de optimización diseñadas para modelos Transformer tradicionales. Hemos logrado un excelente rendimiento en extrapolación, incluso para longitudes de secuencia de 16 a 24 veces mayores durante la inferencia, sin necesidad de ajustar nuestro modelo. Además, hemos mejorado la eficiencia computacional y espacial de CoCA para garantizar su practicidad. Planeamos liberar el código fuente de CoCA en breve. Mientras tanto, hemos incluido nuestro código en el apéndice para facilitar la reproducción de los experimentos.
English
As the rapid progression of practical applications based on Large Language
Models continues, the importance of extrapolating performance has grown
exponentially in the research domain. In our study, we identified an anomalous
behavior in Transformer models that had been previously overlooked, leading to
a chaos around closest tokens which carried the most important information.
We've coined this discovery the "headache of Transformers". To address this at
its core, we introduced a novel self-attention structure named Collinear
Constrained Attention (CoCA). This structure can be seamlessly integrated with
existing extrapolation, interpolation methods, and other optimization
strategies designed for traditional Transformer models. We have achieved
excellent extrapolating performance even for 16 times to 24 times of sequence
lengths during inference without any fine-tuning on our model. We have also
enhanced CoCA's computational and spatial efficiency to ensure its
practicality. We plan to open-source CoCA shortly. In the meantime, we've made
our code available in the appendix for reappearing experiments.