Iwin Transformer : Transformeur Visuel Hiérarchique utilisant des Fenêtres Entrelacées
Iwin Transformer: Hierarchical Vision Transformer using Interleaved Windows
July 24, 2025
papers.authors: Simin Huo, Ning Li
cs.AI
papers.abstract
Nous présentons Iwin Transformer, un nouveau transformeur visuel hiérarchique sans intégration de position, qui peut être affiné directement de basse à haute résolution grâce à la collaboration d'une attention par fenêtres entrelacées innovante et d'une convolution séparable en profondeur. Cette approche utilise l'attention pour connecter des tokens distants et applique la convolution pour relier les tokens voisins, permettant un échange d'informations globales au sein d'un seul module, surmontant ainsi la limitation du Swin Transformer qui nécessite deux blocs consécutifs pour approximer l'attention globale. Des expériences approfondies sur des benchmarks visuels démontrent que Iwin Transformer présente une forte compétitivité dans des tâches telles que la classification d'images (87,4 de précision top-1 sur ImageNet-1K), la segmentation sémantique et la reconnaissance d'actions vidéo. Nous validons également l'efficacité du composant central d'Iwin en tant que module autonome pouvant remplacer de manière transparente le module d'auto-attention dans la génération d'images conditionnées par classe. Les concepts et méthodes introduits par Iwin Transformer ont le potentiel d'inspirer de futures recherches, comme Iwin 3D Attention dans la génération vidéo. Le code et les modèles sont disponibles à l'adresse https://github.com/cominder/Iwin-Transformer.
English
We introduce Iwin Transformer, a novel position-embedding-free hierarchical
vision transformer, which can be fine-tuned directly from low to high
resolution, through the collaboration of innovative interleaved window
attention and depthwise separable convolution. This approach uses attention to
connect distant tokens and applies convolution to link neighboring tokens,
enabling global information exchange within a single module, overcoming Swin
Transformer's limitation of requiring two consecutive blocks to approximate
global attention. Extensive experiments on visual benchmarks demonstrate that
Iwin Transformer exhibits strong competitiveness in tasks such as image
classification (87.4 top-1 accuracy on ImageNet-1K), semantic segmentation and
video action recognition. We also validate the effectiveness of the core
component in Iwin as a standalone module that can seamlessly replace the
self-attention module in class-conditional image generation. The concepts and
methods introduced by the Iwin Transformer have the potential to inspire future
research, like Iwin 3D Attention in video generation. The code and models are
available at https://github.com/cominder/Iwin-Transformer.