ChatPaper.aiChatPaper

Verlicht de last van Transformers via Collineair Beperkte Aandacht

Cure the headache of Transformers via Collinear Constrained Attention

September 15, 2023
Auteurs: Shiyi Zhu, Jing Ye, Wei Jiang, Qi Zhang, Yifan Wu, Jianguo Li
cs.AI

Samenvatting

Naarmate de snelle vooruitgang van praktische toepassingen gebaseerd op Large Language Models voortduurt, is het belang van het extrapoleren van prestaties exponentieel gegroeid in het onderzoeksdomein. In onze studie hebben we een afwijkend gedrag in Transformer-modellen geïdentificeerd dat eerder over het hoofd was gezien, wat leidde tot chaos rond de meest nabije tokens die de belangrijkste informatie droegen. We hebben deze ontdekking de "hoofdpijn van Transformers" genoemd. Om dit probleem bij de kern aan te pakken, hebben we een nieuwe zelf-attentiestructuur geïntroduceerd genaamd Collinear Constrained Attention (CoCA). Deze structuur kan naadloos worden geïntegreerd met bestaande extrapolatie-, interpolatiemethoden en andere optimalisatiestrategieën die zijn ontworpen voor traditionele Transformer-modellen. We hebben uitstekende extrapolatieprestaties bereikt, zelfs voor sequentielengtes van 16 tot 24 keer tijdens inferentie, zonder enige fine-tuning van ons model. We hebben ook de rekenkundige en ruimtelijke efficiëntie van CoCA verbeterd om de praktische bruikbaarheid te waarborgen. We zijn van plan CoCA binnenkort open source te maken. In de tussentijd hebben we onze code beschikbaar gesteld in de bijlage voor het reproduceren van experimenten.
English
As the rapid progression of practical applications based on Large Language Models continues, the importance of extrapolating performance has grown exponentially in the research domain. In our study, we identified an anomalous behavior in Transformer models that had been previously overlooked, leading to a chaos around closest tokens which carried the most important information. We've coined this discovery the "headache of Transformers". To address this at its core, we introduced a novel self-attention structure named Collinear Constrained Attention (CoCA). This structure can be seamlessly integrated with existing extrapolation, interpolation methods, and other optimization strategies designed for traditional Transformer models. We have achieved excellent extrapolating performance even for 16 times to 24 times of sequence lengths during inference without any fine-tuning on our model. We have also enhanced CoCA's computational and spatial efficiency to ensure its practicality. We plan to open-source CoCA shortly. In the meantime, we've made our code available in the appendix for reappearing experiments.
PDF136February 6, 2026