Swin-Free: Betere Cross-Window Attention en Efficiëntie bereiken met Grootte-variërende Vensters
Swin-Free: Achieving Better Cross-Window Attention and Efficiency with Size-varying Window
June 23, 2023
Auteurs: Jinkyu Koo, John Yang, Le An, Gwenaelle Cunha Sergio, Su Inn Park
cs.AI
Samenvatting
Transformer-modellen hebben groot potentieel getoond in computervisie, na hun succes in taaltaken. Swin Transformer is een van deze modellen die convolutionele architecturen overtreft wat betreft nauwkeurigheid, terwijl het efficiënter is in vergelijking met Vision Transformer (ViT) en zijn varianten, die een kwadratische complexiteit hebben ten opzichte van de invoergrootte. Swin Transformer maakt gebruik van verschuivende vensters die kruisvensterverbindingen mogelijk maken, terwijl de self-attention-berekening beperkt blijft tot niet-overlappende lokale vensters. Echter, het verschuiven van vensters introduceert geheugenkopieeroperaties, die een aanzienlijk deel van de uitvoeringstijd in beslag nemen. Om dit probleem te verlichten, stellen we Swin-Free voor, waarbij we vensters met variërende grootte toepassen over verschillende fasen, in plaats van verschuivende vensters, om kruisverbindingen tussen lokale vensters te bereiken. Met deze eenvoudige ontwerpwijziging werkt Swin-Free sneller dan de Swin Transformer tijdens inferentie, met betere nauwkeurigheid. Bovendien stellen we ook enkele Swin-Free-varianten voor die sneller zijn dan hun Swin Transformer-tegenhangers.
English
Transformer models have shown great potential in computer vision, following
their success in language tasks. Swin Transformer is one of them that
outperforms convolution-based architectures in terms of accuracy, while
improving efficiency when compared to Vision Transformer (ViT) and its
variants, which have quadratic complexity with respect to the input size. Swin
Transformer features shifting windows that allows cross-window connection while
limiting self-attention computation to non-overlapping local windows. However,
shifting windows introduces memory copy operations, which account for a
significant portion of its runtime. To mitigate this issue, we propose
Swin-Free in which we apply size-varying windows across stages, instead of
shifting windows, to achieve cross-connection among local windows. With this
simple design change, Swin-Free runs faster than the Swin Transformer at
inference with better accuracy. Furthermore, we also propose a few of Swin-Free
variants that are faster than their Swin Transformer counterparts.