ChatPaper.aiChatPaper

Swin-Free: 크기 가변 윈도우를 통한 더 나은 교차 윈도우 주의력과 효율성 달성

Swin-Free: Achieving Better Cross-Window Attention and Efficiency with Size-varying Window

June 23, 2023
저자: Jinkyu Koo, John Yang, Le An, Gwenaelle Cunha Sergio, Su Inn Park
cs.AI

초록

Transformer 모델은 언어 작업에서의 성공에 이어 컴퓨터 비전 분야에서도 큰 잠재력을 보여주고 있다. Swin Transformer는 정확도 측면에서 컨볼루션 기반 아키텍처를 능가하며, 입력 크기에 대해 2차 복잡도를 가지는 Vision Transformer(ViT) 및 그 변형들에 비해 효율성을 개선한 모델 중 하나이다. Swin Transformer는 교차 창 연결을 가능하게 하면서도 자기 주의(self-attention) 계산을 겹치지 않는 지역 창으로 제한하는 이동 창(shifted windows) 기능을 특징으로 한다. 그러나 이동 창은 메모리 복사 작업을 유발하며, 이는 런타임의 상당 부분을 차지한다. 이 문제를 완화하기 위해, 우리는 이동 창 대신 단계별로 크기가 변하는 창을 적용하여 지역 창 간의 교차 연결을 달성하는 Swin-Free를 제안한다. 이 간단한 설계 변경을 통해 Swin-Free는 추론 시 Swin Transformer보다 더 빠르게 동작하면서도 더 나은 정확도를 보인다. 또한, 우리는 Swin Transformer의 대응 모델보다 더 빠른 몇 가지 Swin-Free 변형도 제안한다.
English
Transformer models have shown great potential in computer vision, following their success in language tasks. Swin Transformer is one of them that outperforms convolution-based architectures in terms of accuracy, while improving efficiency when compared to Vision Transformer (ViT) and its variants, which have quadratic complexity with respect to the input size. Swin Transformer features shifting windows that allows cross-window connection while limiting self-attention computation to non-overlapping local windows. However, shifting windows introduces memory copy operations, which account for a significant portion of its runtime. To mitigate this issue, we propose Swin-Free in which we apply size-varying windows across stages, instead of shifting windows, to achieve cross-connection among local windows. With this simple design change, Swin-Free runs faster than the Swin Transformer at inference with better accuracy. Furthermore, we also propose a few of Swin-Free variants that are faster than their Swin Transformer counterparts.
PDF50December 15, 2024