Swin-Free: Logrando una mejor atención entre ventanas y eficiencia con ventanas de tamaño variable

Resumen

Los modelos Transformer han demostrado un gran potencial en visión por computadora, tras su éxito en tareas de lenguaje. Swin Transformer es uno de ellos que supera a las arquitecturas basadas en convoluciones en términos de precisión, al mismo tiempo que mejora la eficiencia en comparación con Vision Transformer (ViT) y sus variantes, que tienen una complejidad cuadrática con respecto al tamaño de la entrada. Swin Transformer utiliza ventanas desplazables que permiten la conexión entre ventanas mientras limitan el cálculo de auto-atención a ventanas locales no superpuestas. Sin embargo, el desplazamiento de ventanas introduce operaciones de copia de memoria, que representan una parte significativa de su tiempo de ejecución. Para mitigar este problema, proponemos Swin-Free, en el que aplicamos ventanas de tamaño variable a lo largo de las etapas, en lugar de ventanas desplazables, para lograr la conexión cruzada entre ventanas locales. Con este simple cambio de diseño, Swin-Free funciona más rápido que Swin Transformer en la inferencia con una mejor precisión. Además, también proponemos algunas variantes de Swin-Free que son más rápidas que sus contrapartes de Swin Transformer.

English

Transformer models have shown great potential in computer vision, following their success in language tasks. Swin Transformer is one of them that outperforms convolution-based architectures in terms of accuracy, while improving efficiency when compared to Vision Transformer (ViT) and its variants, which have quadratic complexity with respect to the input size. Swin Transformer features shifting windows that allows cross-window connection while limiting self-attention computation to non-overlapping local windows. However, shifting windows introduces memory copy operations, which account for a significant portion of its runtime. To mitigate this issue, we propose Swin-Free in which we apply size-varying windows across stages, instead of shifting windows, to achieve cross-connection among local windows. With this simple design change, Swin-Free runs faster than the Swin Transformer at inference with better accuracy. Furthermore, we also propose a few of Swin-Free variants that are faster than their Swin Transformer counterparts.

Swin-Free: Logrando una mejor atención entre ventanas y eficiencia con ventanas de tamaño variable

Swin-Free: Achieving Better Cross-Window Attention and Efficiency with Size-varying Window

Resumen

Support