Swin-Free : Amélioration de l'attention inter-fenêtres et de l'efficacité grâce à des fenêtres de taille variable
Swin-Free: Achieving Better Cross-Window Attention and Efficiency with Size-varying Window
June 23, 2023
Auteurs: Jinkyu Koo, John Yang, Le An, Gwenaelle Cunha Sergio, Su Inn Park
cs.AI
Résumé
Les modèles Transformer ont démontré un grand potentiel en vision par ordinateur, suite à leur succès dans les tâches de traitement du langage. Le Swin Transformer en est un exemple qui surpasse les architectures basées sur les convolutions en termes de précision, tout en améliorant l'efficacité par rapport au Vision Transformer (ViT) et à ses variantes, qui présentent une complexité quadratique par rapport à la taille de l'entrée. Le Swin Transformer utilise des fenêtres décalées qui permettent des connexions inter-fenêtres tout en limitant le calcul d'auto-attention à des fenêtres locales non chevauchantes. Cependant, les fenêtres décalées introduisent des opérations de copie mémoire, qui représentent une part significative de son temps d'exécution. Pour atténuer ce problème, nous proposons Swin-Free, dans lequel nous appliquons des fenêtres de taille variable à travers les étapes, au lieu de fenêtres décalées, pour établir des connexions entre les fenêtres locales. Avec ce simple changement de conception, Swin-Free fonctionne plus rapidement que le Swin Transformer lors de l'inférence, tout en offrant une meilleure précision. De plus, nous proposons également quelques variantes de Swin-Free qui sont plus rapides que leurs homologues Swin Transformer.
English
Transformer models have shown great potential in computer vision, following
their success in language tasks. Swin Transformer is one of them that
outperforms convolution-based architectures in terms of accuracy, while
improving efficiency when compared to Vision Transformer (ViT) and its
variants, which have quadratic complexity with respect to the input size. Swin
Transformer features shifting windows that allows cross-window connection while
limiting self-attention computation to non-overlapping local windows. However,
shifting windows introduces memory copy operations, which account for a
significant portion of its runtime. To mitigate this issue, we propose
Swin-Free in which we apply size-varying windows across stages, instead of
shifting windows, to achieve cross-connection among local windows. With this
simple design change, Swin-Free runs faster than the Swin Transformer at
inference with better accuracy. Furthermore, we also propose a few of Swin-Free
variants that are faster than their Swin Transformer counterparts.