ChatPaper.aiChatPaper

Cure a dor de cabeça dos Transformers por meio da Atenção com Restrição Colinear

Cure the headache of Transformers via Collinear Constrained Attention

September 15, 2023
Autores: Shiyi Zhu, Jing Ye, Wei Jiang, Qi Zhang, Yifan Wu, Jianguo Li
cs.AI

Resumo

À medida que o rápido avanço das aplicações práticas baseadas em Modelos de Linguagem de Grande Escala (LLMs) continua, a importância de extrapolar o desempenho cresceu exponencialmente no domínio da pesquisa. Em nosso estudo, identificamos um comportamento anômalo em modelos Transformer que havia sido previamente negligenciado, resultando em um caos em torno dos tokens mais próximos que carregavam as informações mais importantes. Batizamos essa descoberta de "dor de cabeça dos Transformers". Para abordar esse problema em sua essência, introduzimos uma nova estrutura de autoatenção chamada Atenção com Restrição Colinear (CoCA). Essa estrutura pode ser integrada de forma contínua com métodos existentes de extrapolação, interpolação e outras estratégias de otimização projetadas para modelos Transformer tradicionais. Conseguimos um excelente desempenho de extrapolação, mesmo para comprimentos de sequência de 16 a 24 vezes maiores durante a inferência, sem qualquer ajuste fino em nosso modelo. Também aprimoramos a eficiência computacional e espacial da CoCA para garantir sua praticidade. Planejamos disponibilizar o código-fonte da CoCA em breve. Enquanto isso, disponibilizamos nosso código no apêndice para a reprodução dos experimentos.
English
As the rapid progression of practical applications based on Large Language Models continues, the importance of extrapolating performance has grown exponentially in the research domain. In our study, we identified an anomalous behavior in Transformer models that had been previously overlooked, leading to a chaos around closest tokens which carried the most important information. We've coined this discovery the "headache of Transformers". To address this at its core, we introduced a novel self-attention structure named Collinear Constrained Attention (CoCA). This structure can be seamlessly integrated with existing extrapolation, interpolation methods, and other optimization strategies designed for traditional Transformer models. We have achieved excellent extrapolating performance even for 16 times to 24 times of sequence lengths during inference without any fine-tuning on our model. We have also enhanced CoCA's computational and spatial efficiency to ensure its practicality. We plan to open-source CoCA shortly. In the meantime, we've made our code available in the appendix for reappearing experiments.
PDF136February 6, 2026