ChatPaper.aiChatPaper

Iwin Transformer: Vision Transformer Gerarchico che Utilizza Finestre Intervallate

Iwin Transformer: Hierarchical Vision Transformer using Interleaved Windows

July 24, 2025
Autori: Simin Huo, Ning Li
cs.AI

Abstract

Presentiamo Iwin Transformer, un innovativo vision transformer gerarchico privo di incorporamento posizionale, che può essere ottimizzato direttamente da risoluzioni basse a risoluzioni elevate, grazie alla collaborazione tra un'attenzione a finestre intervallate innovativa e una convoluzione separabile in profondità. Questo approccio utilizza l'attenzione per connettere token distanti e applica la convoluzione per collegare token vicini, consentendo lo scambio di informazioni globali all'interno di un singolo modulo, superando la limitazione di Swin Transformer che richiede due blocchi consecutivi per approssimare l'attenzione globale. Esperimenti estesi su benchmark visivi dimostrano che Iwin Transformer mostra una forte competitività in compiti come la classificazione di immagini (87.4 di accuratezza top-1 su ImageNet-1K), la segmentazione semantica e il riconoscimento di azioni video. Validiamo inoltre l'efficacia del componente centrale di Iwin come modulo autonomo che può sostituire senza soluzione di continuità il modulo di self-attention nella generazione di immagini condizionata per classe. I concetti e i metodi introdotti da Iwin Transformer hanno il potenziale di ispirare ricerche future, come l'attenzione Iwin 3D nella generazione video. Il codice e i modelli sono disponibili all'indirizzo https://github.com/cominder/Iwin-Transformer.
English
We introduce Iwin Transformer, a novel position-embedding-free hierarchical vision transformer, which can be fine-tuned directly from low to high resolution, through the collaboration of innovative interleaved window attention and depthwise separable convolution. This approach uses attention to connect distant tokens and applies convolution to link neighboring tokens, enabling global information exchange within a single module, overcoming Swin Transformer's limitation of requiring two consecutive blocks to approximate global attention. Extensive experiments on visual benchmarks demonstrate that Iwin Transformer exhibits strong competitiveness in tasks such as image classification (87.4 top-1 accuracy on ImageNet-1K), semantic segmentation and video action recognition. We also validate the effectiveness of the core component in Iwin as a standalone module that can seamlessly replace the self-attention module in class-conditional image generation. The concepts and methods introduced by the Iwin Transformer have the potential to inspire future research, like Iwin 3D Attention in video generation. The code and models are available at https://github.com/cominder/Iwin-Transformer.
PDF42July 25, 2025