ChatPaper.aiChatPaper

DualToken-ViT: Positiebewuste efficiënte Vision Transformer met Dual Token Fusie

DualToken-ViT: Position-aware Efficient Vision Transformer with Dual Token Fusion

September 21, 2023
Auteurs: Zhenzhen Chu, Jiayu Chen, Cen Chen, Chengyu Wang, Ziheng Wu, Jun Huang, Weining Qian
cs.AI

Samenvatting

Vision transformers (ViTs) gebaseerd op self-attention zijn naar voren gekomen als een zeer competitieve architectuur in computervisie. In tegenstelling tot convolutionele neurale netwerken (CNNs) zijn ViTs in staat om globale informatie uit te wisselen. Met de ontwikkeling van verschillende ViT-structuren worden ViTs steeds voordeliger voor veel visuele taken. De kwadratische complexiteit van self-attention maakt ViTs echter rekenintensief, en het ontbreken van inductieve biases voor lokaliteit en translatie-equivariantie vereist grotere modelgroottes in vergelijking met CNNs om visuele kenmerken effectief te leren. In dit artikel stellen we een lichtgewicht en efficiënt vision transformer-model voor, genaamd DualToken-ViT, dat de voordelen van CNNs en ViTs benut. DualToken-ViT combineert effectief de token met lokale informatie verkregen door een convolutionele structuur en de token met globale informatie verkregen door een self-attention-structuur om een efficiënte aandachtstructuur te bereiken. Daarnaast gebruiken we position-aware globale tokens in alle fasen om de globale informatie te verrijken, wat het effect van DualToken-ViT verder versterkt. Position-aware globale tokens bevatten ook de positie-informatie van de afbeelding, wat ons model beter geschikt maakt voor visuele taken. We hebben uitgebreide experimenten uitgevoerd op taken zoals beeldclassificatie, objectdetectie en semantische segmentatie om de effectiviteit van DualToken-ViT aan te tonen. Op de ImageNet-1K dataset behalen onze modellen van verschillende schalen nauwkeurigheden van 75,4% en 79,4% met slechts 0,5G en 1,0G FLOPs, respectievelijk, en ons model met 1,0G FLOPs presteert 0,7% beter dan LightViT-T dat globale tokens gebruikt.
English
Self-attention-based vision transformers (ViTs) have emerged as a highly competitive architecture in computer vision. Unlike convolutional neural networks (CNNs), ViTs are capable of global information sharing. With the development of various structures of ViTs, ViTs are increasingly advantageous for many vision tasks. However, the quadratic complexity of self-attention renders ViTs computationally intensive, and their lack of inductive biases of locality and translation equivariance demands larger model sizes compared to CNNs to effectively learn visual features. In this paper, we propose a light-weight and efficient vision transformer model called DualToken-ViT that leverages the advantages of CNNs and ViTs. DualToken-ViT effectively fuses the token with local information obtained by convolution-based structure and the token with global information obtained by self-attention-based structure to achieve an efficient attention structure. In addition, we use position-aware global tokens throughout all stages to enrich the global information, which further strengthening the effect of DualToken-ViT. Position-aware global tokens also contain the position information of the image, which makes our model better for vision tasks. We conducted extensive experiments on image classification, object detection and semantic segmentation tasks to demonstrate the effectiveness of DualToken-ViT. On the ImageNet-1K dataset, our models of different scales achieve accuracies of 75.4% and 79.4% with only 0.5G and 1.0G FLOPs, respectively, and our model with 1.0G FLOPs outperforms LightViT-T using global tokens by 0.7%.
PDF112December 15, 2024