Iwin-Transformer: Hierarchischer Vision-Transformer mit verschachtelten Fenstern
Iwin Transformer: Hierarchical Vision Transformer using Interleaved Windows
July 24, 2025
papers.authors: Simin Huo, Ning Li
cs.AI
papers.abstract
Wir stellen den Iwin Transformer vor, einen neuartigen hierarchischen Vision Transformer ohne Positions-Einbettung, der direkt von niedriger zu hoher Auflösung feinabgestimmt werden kann, durch die Zusammenarbeit von innovativem Interleaved Window Attention und Tiefenweise Separierbarer Faltung. Dieser Ansatz nutzt Attention, um entfernte Tokens zu verbinden, und wendet Faltung an, um benachbarte Tokens zu verknüpfen, wodurch der globale Informationsaustausch innerhalb eines einzelnen Moduls ermöglicht wird und die Einschränkung des Swin Transformers überwunden wird, der zwei aufeinanderfolgende Blöcke benötigt, um globale Attention zu approximieren. Umfangreiche Experimente auf visuellen Benchmarks zeigen, dass der Iwin Transformer eine starke Wettbewerbsfähigkeit in Aufgaben wie Bildklassifizierung (87,4 Top-1 Genauigkeit auf ImageNet-1K), semantischer Segmentierung und Video-Aktionserkennung aufweist. Wir validieren auch die Wirksamkeit des Kernbestandteils in Iwin als eigenständiges Modul, das nahtlos das Self-Attention-Modul in der klassenbedingten Bildgenerierung ersetzen kann. Die Konzepte und Methoden, die der Iwin Transformer einführt, haben das Potenzial, zukünftige Forschungen zu inspirieren, wie z. B. Iwin 3D Attention in der Videogenerierung. Der Code und die Modelle sind unter https://github.com/cominder/Iwin-Transformer verfügbar.
English
We introduce Iwin Transformer, a novel position-embedding-free hierarchical
vision transformer, which can be fine-tuned directly from low to high
resolution, through the collaboration of innovative interleaved window
attention and depthwise separable convolution. This approach uses attention to
connect distant tokens and applies convolution to link neighboring tokens,
enabling global information exchange within a single module, overcoming Swin
Transformer's limitation of requiring two consecutive blocks to approximate
global attention. Extensive experiments on visual benchmarks demonstrate that
Iwin Transformer exhibits strong competitiveness in tasks such as image
classification (87.4 top-1 accuracy on ImageNet-1K), semantic segmentation and
video action recognition. We also validate the effectiveness of the core
component in Iwin as a standalone module that can seamlessly replace the
self-attention module in class-conditional image generation. The concepts and
methods introduced by the Iwin Transformer have the potential to inspire future
research, like Iwin 3D Attention in video generation. The code and models are
available at https://github.com/cominder/Iwin-Transformer.