FMViT : Un Vision Transformer à mélange de fréquences multiples
FMViT: A multiple-frequency mixing Vision Transformer
November 9, 2023
papers.authors: Wei Tan, Yifeng Geng, Xuansong Xie
cs.AI
papers.abstract
Le modèle de transformateur a connu une adoption généralisée dans les tâches de vision par ordinateur ces dernières années. Cependant, en raison de la complexité quadratique en temps et en mémoire de l'auto-attention, qui est proportionnelle au nombre de tokens d'entrée, la plupart des Vision Transformers (ViTs) existants rencontrent des difficultés à atteindre une performance efficace dans des scénarios de déploiement industriel pratique, tels que TensorRT et CoreML, où les CNN traditionnels excellent. Bien que certaines tentatives récentes aient été faites pour concevoir des architectures hybrides CNN-Transformers afin de résoudre ce problème, leurs performances globales n'ont pas répondu aux attentes. Pour relever ces défis, nous proposons une architecture hybride ViT efficace nommée FMViT. Cette approche améliore la puissance expressive du modèle en mélangeant des caractéristiques à haute fréquence et à basse fréquence avec des fréquences variables, lui permettant de capturer à la fois des informations locales et globales de manière efficace. De plus, nous introduisons des mécanismes adaptés au déploiement tels que la Reparamétrisation Multigroupe Convolutive (gMLP), l'Auto-Attention Multi-Têtes Légère (RLMHSA) et le Bloc de Fusion Convolutif (CFB) pour améliorer davantage les performances du modèle et réduire la surcharge computationnelle. Nos expériences démontrent que FMViT surpasse les CNN, ViTs et architectures hybrides CNN-Transformers existants en termes de compromis latence/précision pour diverses tâches de vision. Sur la plateforme TensorRT, FMViT surpasse Resnet101 de 2,5 % (83,3 % contre 80,8 %) en précision top-1 sur le jeu de données ImageNet tout en maintenant une latence d'inférence similaire. De plus, FMViT atteint des performances comparables à EfficientNet-B5, mais avec une amélioration de 43 % en vitesse d'inférence. Sur CoreML, FMViT surpasse MobileOne de 2,6 % en précision top-1 sur le jeu de données ImageNet, avec une latence d'inférence comparable à MobileOne (78,5 % contre 75,9 %). Notre code est disponible à l'adresse suivante : https://github.com/tany0699/FMViT.
English
The transformer model has gained widespread adoption in computer vision tasks
in recent times. However, due to the quadratic time and memory complexity of
self-attention, which is proportional to the number of input tokens, most
existing Vision Transformers (ViTs) encounter challenges in achieving efficient
performance in practical industrial deployment scenarios, such as TensorRT and
CoreML, where traditional CNNs excel. Although some recent attempts have been
made to design CNN-Transformer hybrid architectures to tackle this problem,
their overall performance has not met expectations. To tackle these challenges,
we propose an efficient hybrid ViT architecture named FMViT. This approach
enhances the model's expressive power by blending high-frequency features and
low-frequency features with varying frequencies, enabling it to capture both
local and global information effectively. Additionally, we introduce
deploy-friendly mechanisms such as Convolutional Multigroup Reparameterization
(gMLP), Lightweight Multi-head Self-Attention (RLMHSA), and Convolutional
Fusion Block (CFB) to further improve the model's performance and reduce
computational overhead. Our experiments demonstrate that FMViT surpasses
existing CNNs, ViTs, and CNNTransformer hybrid architectures in terms of
latency/accuracy trade-offs for various vision tasks. On the TensorRT platform,
FMViT outperforms Resnet101 by 2.5% (83.3% vs. 80.8%) in top-1 accuracy on the
ImageNet dataset while maintaining similar inference latency. Moreover, FMViT
achieves comparable performance with EfficientNet-B5, but with a 43%
improvement in inference speed. On CoreML, FMViT outperforms MobileOne by 2.6%
in top-1 accuracy on the ImageNet dataset, with inference latency comparable to
MobileOne (78.5% vs. 75.9%). Our code can be found at
https://github.com/tany0699/FMViT.