Linderung der Herausforderungen von Transformern durch kollineare Aufmerksamkeitsbeschränkung
Cure the headache of Transformers via Collinear Constrained Attention
September 15, 2023
Autoren: Shiyi Zhu, Jing Ye, Wei Jiang, Qi Zhang, Yifan Wu, Jianguo Li
cs.AI
Zusammenfassung
Mit dem raschen Fortschritt praktischer Anwendungen, die auf großen Sprachmodellen basieren, hat die Bedeutung der Extrapolation von Leistung im Forschungsbereich exponentiell zugenommen. In unserer Studie haben wir ein anomales Verhalten in Transformer-Modellen identifiziert, das bisher übersehen wurde und zu einem Chaos um die nächsten Tokens führte, die die wichtigsten Informationen trugen. Wir haben diese Entdeckung als "Kopfschmerz der Transformer" bezeichnet. Um dieses Problem grundlegend zu lösen, haben wir eine neuartige Selbstaufmerksamkeitsstruktur namens Collinear Constrained Attention (CoCA) eingeführt. Diese Struktur kann nahtlos mit bestehenden Extrapolations-, Interpolationsmethoden und anderen Optimierungsstrategien für traditionelle Transformer-Modelle integriert werden. Wir haben eine hervorragende Extrapolationsleistung sogar für 16-fache bis 24-fache Sequenzlängen während der Inferenz ohne jegliches Fine-Tuning unseres Modells erreicht. Wir haben auch die Rechen- und Speichereffizienz von CoCA verbessert, um dessen Praktikabilität sicherzustellen. Wir planen, CoCA in Kürze als Open Source zu veröffentlichen. In der Zwischenzeit haben wir unseren Code im Anhang zur Verfügung gestellt, um Experimente zu reproduzieren.
English
As the rapid progression of practical applications based on Large Language
Models continues, the importance of extrapolating performance has grown
exponentially in the research domain. In our study, we identified an anomalous
behavior in Transformer models that had been previously overlooked, leading to
a chaos around closest tokens which carried the most important information.
We've coined this discovery the "headache of Transformers". To address this at
its core, we introduced a novel self-attention structure named Collinear
Constrained Attention (CoCA). This structure can be seamlessly integrated with
existing extrapolation, interpolation methods, and other optimization
strategies designed for traditional Transformer models. We have achieved
excellent extrapolating performance even for 16 times to 24 times of sequence
lengths during inference without any fine-tuning on our model. We have also
enhanced CoCA's computational and spatial efficiency to ensure its
practicality. We plan to open-source CoCA shortly. In the meantime, we've made
our code available in the appendix for reappearing experiments.