Curare il mal di testa dei Transformer tramite Attenzione con Vincolo Collineare
Cure the headache of Transformers via Collinear Constrained Attention
September 15, 2023
Autori: Shiyi Zhu, Jing Ye, Wei Jiang, Qi Zhang, Yifan Wu, Jianguo Li
cs.AI
Abstract
Con il rapido progresso delle applicazioni pratiche basate su modelli linguistici di grandi dimensioni (Large Language Models), l'importanza dell'estrapolazione delle prestazioni è cresciuta in modo esponenziale nel campo della ricerca. Nel nostro studio, abbiamo identificato un comportamento anomalo nei modelli Transformer che era stato precedentemente trascurato, portando a un caos intorno ai token più vicini che contenevano le informazioni più importanti. Abbiamo definito questa scoperta il "mal di testa dei Transformer". Per affrontare questo problema alla radice, abbiamo introdotto una nuova struttura di self-attention denominata Collinear Constrained Attention (CoCA). Questa struttura può essere integrata senza problemi con i metodi di estrapolazione e interpolazione esistenti, nonché con altre strategie di ottimizzazione progettate per i tradizionali modelli Transformer. Abbiamo ottenuto eccellenti prestazioni di estrapolazione anche per lunghezze di sequenza da 16 a 24 volte superiori durante l'inferenza, senza alcuna messa a punto del nostro modello. Abbiamo inoltre migliorato l'efficienza computazionale e spaziale di CoCA per garantirne la praticità. Prevediamo di rendere open-source CoCA a breve. Nel frattempo, abbiamo reso disponibile il nostro codice nell'appendice per la riproduzione degli esperimenti.
English
As the rapid progression of practical applications based on Large Language
Models continues, the importance of extrapolating performance has grown
exponentially in the research domain. In our study, we identified an anomalous
behavior in Transformer models that had been previously overlooked, leading to
a chaos around closest tokens which carried the most important information.
We've coined this discovery the "headache of Transformers". To address this at
its core, we introduced a novel self-attention structure named Collinear
Constrained Attention (CoCA). This structure can be seamlessly integrated with
existing extrapolation, interpolation methods, and other optimization
strategies designed for traditional Transformer models. We have achieved
excellent extrapolating performance even for 16 times to 24 times of sequence
lengths during inference without any fine-tuning on our model. We have also
enhanced CoCA's computational and spatial efficiency to ensure its
practicality. We plan to open-source CoCA shortly. In the meantime, we've made
our code available in the appendix for reappearing experiments.