DualToken-ViT: Transformador de Visão Eficiente com Consciência Posicional e Fusão de Tokens Duplos
DualToken-ViT: Position-aware Efficient Vision Transformer with Dual Token Fusion
September 21, 2023
Autores: Zhenzhen Chu, Jiayu Chen, Cen Chen, Chengyu Wang, Ziheng Wu, Jun Huang, Weining Qian
cs.AI
Resumo
Transformers baseados em autoatenção (ViTs) emergiram como uma arquitetura altamente competitiva em visão computacional. Diferentemente das redes neurais convolucionais (CNNs), os ViTs são capazes de compartilhar informações globais. Com o desenvolvimento de várias estruturas de ViTs, esses modelos tornam-se cada vez mais vantajosos para muitas tarefas de visão. No entanto, a complexidade quadrática da autoatenção torna os ViTs computacionalmente intensivos, e a falta de vieses indutivos de localidade e equivariância à translação exige tamanhos de modelo maiores em comparação com as CNNs para aprender efetivamente características visuais. Neste artigo, propomos um modelo leve e eficiente de transformer para visão, chamado DualToken-ViT, que aproveita as vantagens das CNNs e dos ViTs. O DualToken-ViT funde de forma eficiente o token com informações locais obtidas por uma estrutura baseada em convolução e o token com informações globais obtidas por uma estrutura baseada em autoatenção, alcançando uma estrutura de atenção eficiente. Além disso, utilizamos tokens globais com consciência de posição em todos os estágios para enriquecer as informações globais, o que fortalece ainda mais o efeito do DualToken-ViT. Os tokens globais com consciência de posição também contêm informações de posição da imagem, o que torna nosso modelo mais adequado para tarefas de visão. Realizamos experimentos extensos em tarefas de classificação de imagens, detecção de objetos e segmentação semântica para demonstrar a eficácia do DualToken-ViT. No conjunto de dados ImageNet-1K, nossos modelos de diferentes escalas alcançam acurácias de 75,4% e 79,4% com apenas 0,5G e 1,0G de FLOPs, respectivamente, e nosso modelo com 1,0G de FLOPs supera o LightViT-T que utiliza tokens globais em 0,7%.
English
Self-attention-based vision transformers (ViTs) have emerged as a highly
competitive architecture in computer vision. Unlike convolutional neural
networks (CNNs), ViTs are capable of global information sharing. With the
development of various structures of ViTs, ViTs are increasingly advantageous
for many vision tasks. However, the quadratic complexity of self-attention
renders ViTs computationally intensive, and their lack of inductive biases of
locality and translation equivariance demands larger model sizes compared to
CNNs to effectively learn visual features. In this paper, we propose a
light-weight and efficient vision transformer model called DualToken-ViT that
leverages the advantages of CNNs and ViTs. DualToken-ViT effectively fuses the
token with local information obtained by convolution-based structure and the
token with global information obtained by self-attention-based structure to
achieve an efficient attention structure. In addition, we use position-aware
global tokens throughout all stages to enrich the global information, which
further strengthening the effect of DualToken-ViT. Position-aware global tokens
also contain the position information of the image, which makes our model
better for vision tasks. We conducted extensive experiments on image
classification, object detection and semantic segmentation tasks to demonstrate
the effectiveness of DualToken-ViT. On the ImageNet-1K dataset, our models of
different scales achieve accuracies of 75.4% and 79.4% with only 0.5G and 1.0G
FLOPs, respectively, and our model with 1.0G FLOPs outperforms LightViT-T using
global tokens by 0.7%.