ChatPaper.aiChatPaper

Iwin Transformer : Transformeur Visuel Hiérarchique utilisant des Fenêtres Entrelacées

Iwin Transformer: Hierarchical Vision Transformer using Interleaved Windows

July 24, 2025
papers.authors: Simin Huo, Ning Li
cs.AI

papers.abstract

Nous présentons Iwin Transformer, un nouveau transformeur visuel hiérarchique sans intégration de position, qui peut être affiné directement de basse à haute résolution grâce à la collaboration d'une attention par fenêtres entrelacées innovante et d'une convolution séparable en profondeur. Cette approche utilise l'attention pour connecter des tokens distants et applique la convolution pour relier les tokens voisins, permettant un échange d'informations globales au sein d'un seul module, surmontant ainsi la limitation du Swin Transformer qui nécessite deux blocs consécutifs pour approximer l'attention globale. Des expériences approfondies sur des benchmarks visuels démontrent que Iwin Transformer présente une forte compétitivité dans des tâches telles que la classification d'images (87,4 de précision top-1 sur ImageNet-1K), la segmentation sémantique et la reconnaissance d'actions vidéo. Nous validons également l'efficacité du composant central d'Iwin en tant que module autonome pouvant remplacer de manière transparente le module d'auto-attention dans la génération d'images conditionnées par classe. Les concepts et méthodes introduits par Iwin Transformer ont le potentiel d'inspirer de futures recherches, comme Iwin 3D Attention dans la génération vidéo. Le code et les modèles sont disponibles à l'adresse https://github.com/cominder/Iwin-Transformer.
English
We introduce Iwin Transformer, a novel position-embedding-free hierarchical vision transformer, which can be fine-tuned directly from low to high resolution, through the collaboration of innovative interleaved window attention and depthwise separable convolution. This approach uses attention to connect distant tokens and applies convolution to link neighboring tokens, enabling global information exchange within a single module, overcoming Swin Transformer's limitation of requiring two consecutive blocks to approximate global attention. Extensive experiments on visual benchmarks demonstrate that Iwin Transformer exhibits strong competitiveness in tasks such as image classification (87.4 top-1 accuracy on ImageNet-1K), semantic segmentation and video action recognition. We also validate the effectiveness of the core component in Iwin as a standalone module that can seamlessly replace the self-attention module in class-conditional image generation. The concepts and methods introduced by the Iwin Transformer have the potential to inspire future research, like Iwin 3D Attention in video generation. The code and models are available at https://github.com/cominder/Iwin-Transformer.
PDF42July 25, 2025