Swin-Free: Alcançando Melhor Atenção entre Janelas e Eficiência com Janelas de Tamanho Variável

Resumo

Os modelos Transformer têm demonstrado grande potencial em visão computacional, seguindo seu sucesso em tarefas de linguagem. O Swin Transformer é um deles que supera arquiteturas baseadas em convolução em termos de precisão, ao mesmo tempo em que melhora a eficiência quando comparado ao Vision Transformer (ViT) e suas variantes, que possuem complexidade quadrática em relação ao tamanho da entrada. O Swin Transformer apresenta janelas deslizantes que permitem a conexão entre janelas, ao mesmo tempo em que limita o cálculo de autoatenção a janelas locais não sobrepostas. No entanto, as janelas deslizantes introduzem operações de cópia de memória, que representam uma parcela significativa do tempo de execução. Para mitigar esse problema, propomos o Swin-Free, no qual aplicamos janelas de tamanho variável entre os estágios, em vez de janelas deslizantes, para alcançar a conexão cruzada entre as janelas locais. Com essa simples mudança de design, o Swin-Free é executado mais rápido que o Swin Transformer na inferência, com melhor precisão. Além disso, também propomos algumas variantes do Swin-Free que são mais rápidas que suas contrapartes do Swin Transformer.

English

Transformer models have shown great potential in computer vision, following their success in language tasks. Swin Transformer is one of them that outperforms convolution-based architectures in terms of accuracy, while improving efficiency when compared to Vision Transformer (ViT) and its variants, which have quadratic complexity with respect to the input size. Swin Transformer features shifting windows that allows cross-window connection while limiting self-attention computation to non-overlapping local windows. However, shifting windows introduces memory copy operations, which account for a significant portion of its runtime. To mitigate this issue, we propose Swin-Free in which we apply size-varying windows across stages, instead of shifting windows, to achieve cross-connection among local windows. With this simple design change, Swin-Free runs faster than the Swin Transformer at inference with better accuracy. Furthermore, we also propose a few of Swin-Free variants that are faster than their Swin Transformer counterparts.

Swin-Free: Alcançando Melhor Atenção entre Janelas e Eficiência com Janelas de Tamanho Variável

Swin-Free: Achieving Better Cross-Window Attention and Efficiency with Size-varying Window

Resumo

Support