Swin-Free: Raggiungere una Migliore Attenzione Cross-Window ed Efficienza con Finestre di Dimensioni Variabili

Abstract

I modelli Transformer hanno dimostrato un grande potenziale nel campo della visione artificiale, seguendo il loro successo nei compiti linguistici. Swin Transformer è uno di questi, superando le architetture basate su convoluzioni in termini di accuratezza, migliorando al contempo l'efficienza rispetto a Vision Transformer (ViT) e alle sue varianti, che presentano una complessità quadratica rispetto alla dimensione dell'input. Swin Transformer utilizza finestre mobili che consentono connessioni tra finestre limitando il calcolo dell'auto-attenzione a finestre locali non sovrapposte. Tuttavia, le finestre mobili introducono operazioni di copia della memoria, che rappresentano una parte significativa del tempo di esecuzione. Per mitigare questo problema, proponiamo Swin-Free, in cui applichiamo finestre di dimensioni variabili tra le fasi, anziché finestre mobili, per ottenere connessioni incrociate tra finestre locali. Con questo semplice cambiamento di progettazione, Swin-Free è più veloce di Swin Transformer durante l'inferenza, con una migliore accuratezza. Inoltre, proponiamo anche alcune varianti di Swin-Free che sono più veloci rispetto alle loro controparti Swin Transformer.

English

Transformer models have shown great potential in computer vision, following their success in language tasks. Swin Transformer is one of them that outperforms convolution-based architectures in terms of accuracy, while improving efficiency when compared to Vision Transformer (ViT) and its variants, which have quadratic complexity with respect to the input size. Swin Transformer features shifting windows that allows cross-window connection while limiting self-attention computation to non-overlapping local windows. However, shifting windows introduces memory copy operations, which account for a significant portion of its runtime. To mitigate this issue, we propose Swin-Free in which we apply size-varying windows across stages, instead of shifting windows, to achieve cross-connection among local windows. With this simple design change, Swin-Free runs faster than the Swin Transformer at inference with better accuracy. Furthermore, we also propose a few of Swin-Free variants that are faster than their Swin Transformer counterparts.

Swin-Free: Raggiungere una Migliore Attenzione Cross-Window ed Efficienza con Finestre di Dimensioni Variabili

Swin-Free: Achieving Better Cross-Window Attention and Efficiency with Size-varying Window

Abstract

Support