DualToken-ViT: Позиционно-ориентированный эффективный Vision Transformer с двойным слиянием токенов
DualToken-ViT: Position-aware Efficient Vision Transformer with Dual Token Fusion
September 21, 2023
Авторы: Zhenzhen Chu, Jiayu Chen, Cen Chen, Chengyu Wang, Ziheng Wu, Jun Huang, Weining Qian
cs.AI
Аннотация
Трансформеры для обработки изображений на основе механизма самовнимания (ViTs) стали высококонкурентной архитектурой в области компьютерного зрения. В отличие от сверточных нейронных сетей (CNNs), ViTs способны к глобальному обмену информацией. С развитием различных структур ViTs, они становятся всё более предпочтительными для многих задач обработки изображений. Однако квадратичная сложность механизма самовнимания делает ViTs вычислительно затратными, а отсутствие индуктивных предпосылок локальности и трансляционной эквивариантности требует больших размеров моделей по сравнению с CNNs для эффективного обучения визуальным признакам. В данной статье мы предлагаем легковесную и эффективную модель трансформера для обработки изображений под названием DualToken-ViT, которая объединяет преимущества CNNs и ViTs. DualToken-ViT эффективно объединяет токен с локальной информацией, полученной с помощью сверточной структуры, и токен с глобальной информацией, полученной с помощью структуры на основе самовнимания, чтобы достичь эффективной структуры внимания. Кроме того, мы используем позиционно-осведомленные глобальные токены на всех этапах для обогащения глобальной информации, что дополнительно усиливает эффективность DualToken-ViT. Позиционно-осведомленные глобальные токены также содержат информацию о положении изображения, что делает нашу модель более подходящей для задач обработки изображений. Мы провели обширные эксперименты на задачах классификации изображений, обнаружения объектов и семантической сегментации, чтобы продемонстрировать эффективность DualToken-ViT. На наборе данных ImageNet-1K наши модели различных масштабов достигают точности 75,4% и 79,4% при всего 0,5G и 1,0G FLOPs соответственно, а наша модель с 1,0G FLOPs превосходит LightViT-T, использующую глобальные токены, на 0,7%.
English
Self-attention-based vision transformers (ViTs) have emerged as a highly
competitive architecture in computer vision. Unlike convolutional neural
networks (CNNs), ViTs are capable of global information sharing. With the
development of various structures of ViTs, ViTs are increasingly advantageous
for many vision tasks. However, the quadratic complexity of self-attention
renders ViTs computationally intensive, and their lack of inductive biases of
locality and translation equivariance demands larger model sizes compared to
CNNs to effectively learn visual features. In this paper, we propose a
light-weight and efficient vision transformer model called DualToken-ViT that
leverages the advantages of CNNs and ViTs. DualToken-ViT effectively fuses the
token with local information obtained by convolution-based structure and the
token with global information obtained by self-attention-based structure to
achieve an efficient attention structure. In addition, we use position-aware
global tokens throughout all stages to enrich the global information, which
further strengthening the effect of DualToken-ViT. Position-aware global tokens
also contain the position information of the image, which makes our model
better for vision tasks. We conducted extensive experiments on image
classification, object detection and semantic segmentation tasks to demonstrate
the effectiveness of DualToken-ViT. On the ImageNet-1K dataset, our models of
different scales achieve accuracies of 75.4% and 79.4% with only 0.5G and 1.0G
FLOPs, respectively, and our model with 1.0G FLOPs outperforms LightViT-T using
global tokens by 0.7%.