Swin-Free: Verbesserte Cross-Window-Aufmerksamkeit und Effizienz durch variierende Fenstergrößen
Swin-Free: Achieving Better Cross-Window Attention and Efficiency with Size-varying Window
June 23, 2023
Autoren: Jinkyu Koo, John Yang, Le An, Gwenaelle Cunha Sergio, Su Inn Park
cs.AI
Zusammenfassung
Transformer-Modelle haben großes Potenzial in der Computer Vision gezeigt, nachdem sie bereits bei Sprachaufgaben erfolgreich waren. Der Swin Transformer ist eines dieser Modelle, das convolution-basierte Architekturen in Bezug auf die Genauigkeit übertrifft und gleichzeitig die Effizienz im Vergleich zum Vision Transformer (ViT) und seinen Varianten verbessert, die eine quadratische Komplexität in Bezug auf die Eingabegröße aufweisen. Der Swin Transformer verwendet verschiebbare Fenster, die Verbindungen zwischen Fenstern ermöglichen, während die Selbstaufmerksamkeitsberechnung auf nicht überlappende lokale Fenster beschränkt wird. Allerdings führen diese verschiebbaren Fenster zu Speicherkopiervorgängen, die einen erheblichen Teil der Laufzeit ausmachen. Um dieses Problem zu mildern, schlagen wir Swin-Free vor, bei dem wir fenstergrößenvariierende Fenster über verschiedene Stufen hinweg anwenden, anstatt verschiebbare Fenster zu verwenden, um Verbindungen zwischen lokalen Fenstern zu erreichen. Durch diese einfache Designänderung läuft Swin-Free schneller als der Swin Transformer bei der Inferenz und bietet gleichzeitig eine bessere Genauigkeit. Darüber hinaus schlagen wir auch einige Varianten von Swin-Free vor, die schneller sind als ihre Swin Transformer-Pendants.
English
Transformer models have shown great potential in computer vision, following
their success in language tasks. Swin Transformer is one of them that
outperforms convolution-based architectures in terms of accuracy, while
improving efficiency when compared to Vision Transformer (ViT) and its
variants, which have quadratic complexity with respect to the input size. Swin
Transformer features shifting windows that allows cross-window connection while
limiting self-attention computation to non-overlapping local windows. However,
shifting windows introduces memory copy operations, which account for a
significant portion of its runtime. To mitigate this issue, we propose
Swin-Free in which we apply size-varying windows across stages, instead of
shifting windows, to achieve cross-connection among local windows. With this
simple design change, Swin-Free runs faster than the Swin Transformer at
inference with better accuracy. Furthermore, we also propose a few of Swin-Free
variants that are faster than their Swin Transformer counterparts.