DualToken-ViT: Vision Transformer Efficiente con Consapevolezza Posizionale e Fusione Duale di Token
DualToken-ViT: Position-aware Efficient Vision Transformer with Dual Token Fusion
September 21, 2023
Autori: Zhenzhen Chu, Jiayu Chen, Cen Chen, Chengyu Wang, Ziheng Wu, Jun Huang, Weining Qian
cs.AI
Abstract
I transformer basati su self-attention (ViT) si sono affermati come un'architettura altamente competitiva nel campo della visione artificiale. A differenza delle reti neurali convoluzionali (CNN), i ViT sono in grado di condividere informazioni globali. Con lo sviluppo di varie strutture di ViT, questi ultimi stanno diventando sempre più vantaggiosi per molte attività di visione. Tuttavia, la complessità quadratica della self-attention rende i ViT computazionalmente intensivi, e la loro mancanza di bias induttivi di località e invarianza alla traduzione richiede dimensioni del modello più grandi rispetto alle CNN per apprendere efficacemente le caratteristiche visive. In questo articolo, proponiamo un modello leggero ed efficiente di vision transformer chiamato DualToken-ViT che sfrutta i vantaggi delle CNN e dei ViT. DualToken-ViT fonde efficacemente il token con informazioni locali ottenute da una struttura basata su convoluzione e il token con informazioni globali ottenute da una struttura basata su self-attention per realizzare una struttura di attenzione efficiente. Inoltre, utilizziamo token globali consapevoli della posizione in tutte le fasi per arricchire le informazioni globali, rafforzando ulteriormente l'effetto di DualToken-ViT. I token globali consapevoli della posizione contengono anche le informazioni sulla posizione dell'immagine, il che rende il nostro modello più adatto per le attività di visione. Abbiamo condotto ampi esperimenti su compiti di classificazione delle immagini, rilevamento di oggetti e segmentazione semantica per dimostrare l'efficacia di DualToken-ViT. Sul dataset ImageNet-1K, i nostri modelli di diverse scale raggiungono accuratezze del 75,4% e del 79,4% con soli 0,5G e 1,0G FLOPs, rispettivamente, e il nostro modello con 1,0G FLOPs supera LightViT-T che utilizza token globali dello 0,7%.
English
Self-attention-based vision transformers (ViTs) have emerged as a highly
competitive architecture in computer vision. Unlike convolutional neural
networks (CNNs), ViTs are capable of global information sharing. With the
development of various structures of ViTs, ViTs are increasingly advantageous
for many vision tasks. However, the quadratic complexity of self-attention
renders ViTs computationally intensive, and their lack of inductive biases of
locality and translation equivariance demands larger model sizes compared to
CNNs to effectively learn visual features. In this paper, we propose a
light-weight and efficient vision transformer model called DualToken-ViT that
leverages the advantages of CNNs and ViTs. DualToken-ViT effectively fuses the
token with local information obtained by convolution-based structure and the
token with global information obtained by self-attention-based structure to
achieve an efficient attention structure. In addition, we use position-aware
global tokens throughout all stages to enrich the global information, which
further strengthening the effect of DualToken-ViT. Position-aware global tokens
also contain the position information of the image, which makes our model
better for vision tasks. We conducted extensive experiments on image
classification, object detection and semantic segmentation tasks to demonstrate
the effectiveness of DualToken-ViT. On the ImageNet-1K dataset, our models of
different scales achieve accuracies of 75.4% and 79.4% with only 0.5G and 1.0G
FLOPs, respectively, and our model with 1.0G FLOPs outperforms LightViT-T using
global tokens by 0.7%.