ChatPaper.aiChatPaper

DualToken-ViT: Transformador de Visión Eficiente con Conciencia de Posición y Fusión de Doble Token

DualToken-ViT: Position-aware Efficient Vision Transformer with Dual Token Fusion

September 21, 2023
Autores: Zhenzhen Chu, Jiayu Chen, Cen Chen, Chengyu Wang, Ziheng Wu, Jun Huang, Weining Qian
cs.AI

Resumen

Los transformadores de visión basados en autoatención (ViTs) han surgido como una arquitectura altamente competitiva en visión por computadora. A diferencia de las redes neuronales convolucionales (CNNs), los ViTs son capaces de compartir información global. Con el desarrollo de diversas estructuras de ViTs, estos son cada vez más ventajosos para muchas tareas de visión. Sin embargo, la complejidad cuadrática de la autoatención hace que los ViTs sean computacionalmente intensivos, y su falta de sesgos inductivos de localidad y equivarianza traslacional exige tamaños de modelo más grandes en comparación con las CNNs para aprender eficazmente características visuales. En este artículo, proponemos un modelo ligero y eficiente de transformador de visión llamado DualToken-ViT que aprovecha las ventajas de las CNNs y los ViTs. DualToken-ViT fusiona eficazmente el token con información local obtenida por una estructura basada en convolución y el token con información global obtenida por una estructura basada en autoatención para lograr una estructura de atención eficiente. Además, utilizamos tokens globales conscientes de la posición en todas las etapas para enriquecer la información global, lo que refuerza aún más el efecto de DualToken-ViT. Los tokens globales conscientes de la posición también contienen la información de posición de la imagen, lo que hace que nuestro modelo sea mejor para tareas de visión. Realizamos extensos experimentos en tareas de clasificación de imágenes, detección de objetos y segmentación semántica para demostrar la eficacia de DualToken-ViT. En el conjunto de datos ImageNet-1K, nuestros modelos de diferentes escalas alcanzan precisiones de 75.4% y 79.4% con solo 0.5G y 1.0G FLOPs, respectivamente, y nuestro modelo con 1.0G FLOPs supera a LightViT-T que utiliza tokens globales en un 0.7%.
English
Self-attention-based vision transformers (ViTs) have emerged as a highly competitive architecture in computer vision. Unlike convolutional neural networks (CNNs), ViTs are capable of global information sharing. With the development of various structures of ViTs, ViTs are increasingly advantageous for many vision tasks. However, the quadratic complexity of self-attention renders ViTs computationally intensive, and their lack of inductive biases of locality and translation equivariance demands larger model sizes compared to CNNs to effectively learn visual features. In this paper, we propose a light-weight and efficient vision transformer model called DualToken-ViT that leverages the advantages of CNNs and ViTs. DualToken-ViT effectively fuses the token with local information obtained by convolution-based structure and the token with global information obtained by self-attention-based structure to achieve an efficient attention structure. In addition, we use position-aware global tokens throughout all stages to enrich the global information, which further strengthening the effect of DualToken-ViT. Position-aware global tokens also contain the position information of the image, which makes our model better for vision tasks. We conducted extensive experiments on image classification, object detection and semantic segmentation tasks to demonstrate the effectiveness of DualToken-ViT. On the ImageNet-1K dataset, our models of different scales achieve accuracies of 75.4% and 79.4% with only 0.5G and 1.0G FLOPs, respectively, and our model with 1.0G FLOPs outperforms LightViT-T using global tokens by 0.7%.
PDF112December 15, 2024