Swin-Free: Повышение эффективности внимания между окнами и производительности с использованием окон переменного размера
Swin-Free: Achieving Better Cross-Window Attention and Efficiency with Size-varying Window
June 23, 2023
Авторы: Jinkyu Koo, John Yang, Le An, Gwenaelle Cunha Sergio, Su Inn Park
cs.AI
Аннотация
Трансформерные модели продемонстрировали значительный потенциал в области компьютерного зрения, вслед за их успехами в задачах обработки естественного языка. Swin Transformer является одной из таких моделей, превосходящей сверточные архитектуры по точности и улучшающей эффективность по сравнению с Vision Transformer (ViT) и его вариантами, которые имеют квадратичную сложность относительно размера входных данных. Swin Transformer использует сдвигающиеся окна, что позволяет устанавливать связи между окнами, ограничивая при этом вычисления self-attention непересекающимися локальными окнами. Однако сдвигающиеся окна вводят операции копирования памяти, которые составляют значительную часть времени выполнения. Чтобы смягчить эту проблему, мы предлагаем Swin-Free, в котором вместо сдвигающихся окон применяются окна переменного размера на разных этапах для достижения связей между локальными окнами. Благодаря этому простому изменению конструкции, Swin-Free работает быстрее, чем Swin Transformer, при выводе с более высокой точностью. Кроме того, мы также предлагаем несколько вариантов Swin-Free, которые работают быстрее, чем их аналоги на основе Swin Transformer.
English
Transformer models have shown great potential in computer vision, following
their success in language tasks. Swin Transformer is one of them that
outperforms convolution-based architectures in terms of accuracy, while
improving efficiency when compared to Vision Transformer (ViT) and its
variants, which have quadratic complexity with respect to the input size. Swin
Transformer features shifting windows that allows cross-window connection while
limiting self-attention computation to non-overlapping local windows. However,
shifting windows introduces memory copy operations, which account for a
significant portion of its runtime. To mitigate this issue, we propose
Swin-Free in which we apply size-varying windows across stages, instead of
shifting windows, to achieve cross-connection among local windows. With this
simple design change, Swin-Free runs faster than the Swin Transformer at
inference with better accuracy. Furthermore, we also propose a few of Swin-Free
variants that are faster than their Swin Transformer counterparts.