Swin-Free : Amélioration de l'attention inter-fenêtres et de l'efficacité grâce à des fenêtres de taille variable

papers.abstract

Les modèles Transformer ont démontré un grand potentiel en vision par ordinateur, suite à leur succès dans les tâches de traitement du langage. Le Swin Transformer en est un exemple qui surpasse les architectures basées sur les convolutions en termes de précision, tout en améliorant l'efficacité par rapport au Vision Transformer (ViT) et à ses variantes, qui présentent une complexité quadratique par rapport à la taille de l'entrée. Le Swin Transformer utilise des fenêtres décalées qui permettent des connexions inter-fenêtres tout en limitant le calcul d'auto-attention à des fenêtres locales non chevauchantes. Cependant, les fenêtres décalées introduisent des opérations de copie mémoire, qui représentent une part significative de son temps d'exécution. Pour atténuer ce problème, nous proposons Swin-Free, dans lequel nous appliquons des fenêtres de taille variable à travers les étapes, au lieu de fenêtres décalées, pour établir des connexions entre les fenêtres locales. Avec ce simple changement de conception, Swin-Free fonctionne plus rapidement que le Swin Transformer lors de l'inférence, tout en offrant une meilleure précision. De plus, nous proposons également quelques variantes de Swin-Free qui sont plus rapides que leurs homologues Swin Transformer.

English

Transformer models have shown great potential in computer vision, following their success in language tasks. Swin Transformer is one of them that outperforms convolution-based architectures in terms of accuracy, while improving efficiency when compared to Vision Transformer (ViT) and its variants, which have quadratic complexity with respect to the input size. Swin Transformer features shifting windows that allows cross-window connection while limiting self-attention computation to non-overlapping local windows. However, shifting windows introduces memory copy operations, which account for a significant portion of its runtime. To mitigate this issue, we propose Swin-Free in which we apply size-varying windows across stages, instead of shifting windows, to achieve cross-connection among local windows. With this simple design change, Swin-Free runs faster than the Swin Transformer at inference with better accuracy. Furthermore, we also propose a few of Swin-Free variants that are faster than their Swin Transformer counterparts.

Swin-Free : Amélioration de l'attention inter-fenêtres et de l'efficacité grâce à des fenêtres de taille variable

Swin-Free: Achieving Better Cross-Window Attention and Efficiency with Size-varying Window

papers.abstract

Support