ChatPaper.aiChatPaper

Linderung der Herausforderungen von Transformern durch kollineare Aufmerksamkeitsbeschränkung

Cure the headache of Transformers via Collinear Constrained Attention

September 15, 2023
Autoren: Shiyi Zhu, Jing Ye, Wei Jiang, Qi Zhang, Yifan Wu, Jianguo Li
cs.AI

Zusammenfassung

Mit dem raschen Fortschritt praktischer Anwendungen, die auf großen Sprachmodellen basieren, hat die Bedeutung der Extrapolation von Leistung im Forschungsbereich exponentiell zugenommen. In unserer Studie haben wir ein anomales Verhalten in Transformer-Modellen identifiziert, das bisher übersehen wurde und zu einem Chaos um die nächsten Tokens führte, die die wichtigsten Informationen trugen. Wir haben diese Entdeckung als "Kopfschmerz der Transformer" bezeichnet. Um dieses Problem grundlegend zu lösen, haben wir eine neuartige Selbstaufmerksamkeitsstruktur namens Collinear Constrained Attention (CoCA) eingeführt. Diese Struktur kann nahtlos mit bestehenden Extrapolations-, Interpolationsmethoden und anderen Optimierungsstrategien für traditionelle Transformer-Modelle integriert werden. Wir haben eine hervorragende Extrapolationsleistung sogar für 16-fache bis 24-fache Sequenzlängen während der Inferenz ohne jegliches Fine-Tuning unseres Modells erreicht. Wir haben auch die Rechen- und Speichereffizienz von CoCA verbessert, um dessen Praktikabilität sicherzustellen. Wir planen, CoCA in Kürze als Open Source zu veröffentlichen. In der Zwischenzeit haben wir unseren Code im Anhang zur Verfügung gestellt, um Experimente zu reproduzieren.
English
As the rapid progression of practical applications based on Large Language Models continues, the importance of extrapolating performance has grown exponentially in the research domain. In our study, we identified an anomalous behavior in Transformer models that had been previously overlooked, leading to a chaos around closest tokens which carried the most important information. We've coined this discovery the "headache of Transformers". To address this at its core, we introduced a novel self-attention structure named Collinear Constrained Attention (CoCA). This structure can be seamlessly integrated with existing extrapolation, interpolation methods, and other optimization strategies designed for traditional Transformer models. We have achieved excellent extrapolating performance even for 16 times to 24 times of sequence lengths during inference without any fine-tuning on our model. We have also enhanced CoCA's computational and spatial efficiency to ensure its practicality. We plan to open-source CoCA shortly. In the meantime, we've made our code available in the appendix for reappearing experiments.
PDF136December 15, 2024