ChatPaper.aiChatPaper

DualToken-ViT : Transformeur de vision efficace avec fusion de double token et prise en compte de la position

DualToken-ViT: Position-aware Efficient Vision Transformer with Dual Token Fusion

September 21, 2023
Auteurs: Zhenzhen Chu, Jiayu Chen, Cen Chen, Chengyu Wang, Ziheng Wu, Jun Huang, Weining Qian
cs.AI

Résumé

Les transformeurs de vision basés sur l'auto-attention (ViTs) sont apparus comme une architecture hautement compétitive en vision par ordinateur. Contrairement aux réseaux de neurones convolutifs (CNNs), les ViTs permettent un partage global de l'information. Avec le développement de diverses structures de ViTs, ces derniers deviennent de plus en plus avantageux pour de nombreuses tâches de vision. Cependant, la complexité quadratique de l'auto-attention rend les ViTs intensifs en calcul, et leur manque de biais inductifs de localité et d'équivariance par translation exige des tailles de modèles plus importantes par rapport aux CNNs pour apprendre efficacement les caractéristiques visuelles. Dans cet article, nous proposons un modèle de transformeur de vision léger et efficace appelé DualToken-ViT qui exploite les avantages des CNNs et des ViTs. DualToken-ViT fusionne efficacement le token avec les informations locales obtenues par une structure basée sur la convolution et le token avec les informations globales obtenues par une structure basée sur l'auto-attention pour réaliser une structure d'attention efficace. De plus, nous utilisons des tokens globaux sensibles à la position à travers toutes les étapes pour enrichir les informations globales, ce qui renforce encore l'effet de DualToken-ViT. Les tokens globaux sensibles à la position contiennent également les informations de position de l'image, ce qui rend notre modèle plus performant pour les tâches de vision. Nous avons mené des expériences approfondies sur les tâches de classification d'images, de détection d'objets et de segmentation sémantique pour démontrer l'efficacité de DualToken-ViT. Sur le jeu de données ImageNet-1K, nos modèles de différentes échelles atteignent des précisions de 75,4 % et 79,4 % avec seulement 0,5G et 1,0G FLOPs, respectivement, et notre modèle avec 1,0G FLOPs surpasse LightViT-T utilisant des tokens globaux de 0,7 %.
English
Self-attention-based vision transformers (ViTs) have emerged as a highly competitive architecture in computer vision. Unlike convolutional neural networks (CNNs), ViTs are capable of global information sharing. With the development of various structures of ViTs, ViTs are increasingly advantageous for many vision tasks. However, the quadratic complexity of self-attention renders ViTs computationally intensive, and their lack of inductive biases of locality and translation equivariance demands larger model sizes compared to CNNs to effectively learn visual features. In this paper, we propose a light-weight and efficient vision transformer model called DualToken-ViT that leverages the advantages of CNNs and ViTs. DualToken-ViT effectively fuses the token with local information obtained by convolution-based structure and the token with global information obtained by self-attention-based structure to achieve an efficient attention structure. In addition, we use position-aware global tokens throughout all stages to enrich the global information, which further strengthening the effect of DualToken-ViT. Position-aware global tokens also contain the position information of the image, which makes our model better for vision tasks. We conducted extensive experiments on image classification, object detection and semantic segmentation tasks to demonstrate the effectiveness of DualToken-ViT. On the ImageNet-1K dataset, our models of different scales achieve accuracies of 75.4% and 79.4% with only 0.5G and 1.0G FLOPs, respectively, and our model with 1.0G FLOPs outperforms LightViT-T using global tokens by 0.7%.
PDF112December 15, 2024