Curare il mal di testa dei Transformer tramite Attenzione con Vincolo Collineare

Abstract

Con il rapido progresso delle applicazioni pratiche basate su modelli linguistici di grandi dimensioni (Large Language Models), l'importanza dell'estrapolazione delle prestazioni è cresciuta in modo esponenziale nel campo della ricerca. Nel nostro studio, abbiamo identificato un comportamento anomalo nei modelli Transformer che era stato precedentemente trascurato, portando a un caos intorno ai token più vicini che contenevano le informazioni più importanti. Abbiamo definito questa scoperta il "mal di testa dei Transformer". Per affrontare questo problema alla radice, abbiamo introdotto una nuova struttura di self-attention denominata Collinear Constrained Attention (CoCA). Questa struttura può essere integrata senza problemi con i metodi di estrapolazione e interpolazione esistenti, nonché con altre strategie di ottimizzazione progettate per i tradizionali modelli Transformer. Abbiamo ottenuto eccellenti prestazioni di estrapolazione anche per lunghezze di sequenza da 16 a 24 volte superiori durante l'inferenza, senza alcuna messa a punto del nostro modello. Abbiamo inoltre migliorato l'efficienza computazionale e spaziale di CoCA per garantirne la praticità. Prevediamo di rendere open-source CoCA a breve. Nel frattempo, abbiamo reso disponibile il nostro codice nell'appendice per la riproduzione degli esperimenti.

English

As the rapid progression of practical applications based on Large Language Models continues, the importance of extrapolating performance has grown exponentially in the research domain. In our study, we identified an anomalous behavior in Transformer models that had been previously overlooked, leading to a chaos around closest tokens which carried the most important information. We've coined this discovery the "headache of Transformers". To address this at its core, we introduced a novel self-attention structure named Collinear Constrained Attention (CoCA). This structure can be seamlessly integrated with existing extrapolation, interpolation methods, and other optimization strategies designed for traditional Transformer models. We have achieved excellent extrapolating performance even for 16 times to 24 times of sequence lengths during inference without any fine-tuning on our model. We have also enhanced CoCA's computational and spatial efficiency to ensure its practicality. We plan to open-source CoCA shortly. In the meantime, we've made our code available in the appendix for reappearing experiments.

Curare il mal di testa dei Transformer tramite Attenzione con Vincolo Collineare

Cure the headache of Transformers via Collinear Constrained Attention

Abstract

Support