EfficientViT : Transformeur de Vision à Mémoire Efficace avec Attention en Groupe en Cascade
EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention
May 11, 2023
Auteurs: Xinyu Liu, Houwen Peng, Ningxin Zheng, Yuqing Yang, Han Hu, Yixuan Yuan
cs.AI
Résumé
Les transformeurs visuels ont montré un grand succès grâce à leurs capacités modélisatrices élevées. Cependant, leurs performances remarquables s'accompagnent de coûts de calcul importants, ce qui les rend inadaptés aux applications en temps réel. Dans cet article, nous proposons une famille de transformeurs visuels à haute vitesse nommée EfficientViT. Nous constatons que la vitesse des modèles de transformeurs existants est généralement limitée par des opérations inefficaces en termes de mémoire, en particulier le remodelage des tenseurs et les fonctions élément par élément dans le MHSA. Par conséquent, nous concevons un nouveau bloc de construction avec une disposition en sandwich, c'est-à-dire en utilisant un seul MHSA lié à la mémoire entre des couches FFN efficaces, ce qui améliore l'efficacité de la mémoire tout en renforçant la communication entre les canaux. De plus, nous découvrons que les cartes d'attention partagent une grande similarité entre les têtes, ce qui entraîne une redondance computationnelle. Pour résoudre ce problème, nous présentons un module d'attention en groupe en cascade qui alimente les têtes d'attention avec différentes partitions de la caractéristique complète, ce qui non seulement réduit les coûts de calcul mais améliore également la diversité de l'attention. Des expériences approfondies démontrent qu'EfficientViT surpasse les modèles efficaces existants, offrant un bon compromis entre vitesse et précision. Par exemple, notre EfficientViT-M5 dépasse MobileNetV3-Large de 1,9 % en précision, tout en obtenant un débit 40,4 % et 45,2 % plus élevé sur les GPU Nvidia V100 et CPU Intel Xeon, respectivement. Comparé au récent modèle efficace MobileViT-XXS, EfficientViT-M2 atteint une précision supérieure de 1,8 %, tout en étant 5,8x/3,7x plus rapide sur le GPU/CPU, et 7,4x plus rapide lorsqu'il est converti au format ONNX. Le code et les modèles sont disponibles à l'adresse https://github.com/microsoft/Cream/tree/main/EfficientViT.
English
Vision transformers have shown great success due to their high model
capabilities. However, their remarkable performance is accompanied by heavy
computation costs, which makes them unsuitable for real-time applications. In
this paper, we propose a family of high-speed vision transformers named
EfficientViT. We find that the speed of existing transformer models is commonly
bounded by memory inefficient operations, especially the tensor reshaping and
element-wise functions in MHSA. Therefore, we design a new building block with
a sandwich layout, i.e., using a single memory-bound MHSA between efficient FFN
layers, which improves memory efficiency while enhancing channel communication.
Moreover, we discover that the attention maps share high similarities across
heads, leading to computational redundancy. To address this, we present a
cascaded group attention module feeding attention heads with different splits
of the full feature, which not only saves computation cost but also improves
attention diversity. Comprehensive experiments demonstrate EfficientViT
outperforms existing efficient models, striking a good trade-off between speed
and accuracy. For instance, our EfficientViT-M5 surpasses MobileNetV3-Large by
1.9% in accuracy, while getting 40.4% and 45.2% higher throughput on Nvidia
V100 GPU and Intel Xeon CPU, respectively. Compared to the recent efficient
model MobileViT-XXS, EfficientViT-M2 achieves 1.8% superior accuracy, while
running 5.8x/3.7x faster on the GPU/CPU, and 7.4x faster when converted to ONNX
format. Code and models are available at
https://github.com/microsoft/Cream/tree/main/EfficientViT.