FMViT : Un Vision Transformer à mélange de fréquences multiples

papers.abstract

Le modèle de transformateur a connu une adoption généralisée dans les tâches de vision par ordinateur ces dernières années. Cependant, en raison de la complexité quadratique en temps et en mémoire de l'auto-attention, qui est proportionnelle au nombre de tokens d'entrée, la plupart des Vision Transformers (ViTs) existants rencontrent des difficultés à atteindre une performance efficace dans des scénarios de déploiement industriel pratique, tels que TensorRT et CoreML, où les CNN traditionnels excellent. Bien que certaines tentatives récentes aient été faites pour concevoir des architectures hybrides CNN-Transformers afin de résoudre ce problème, leurs performances globales n'ont pas répondu aux attentes. Pour relever ces défis, nous proposons une architecture hybride ViT efficace nommée FMViT. Cette approche améliore la puissance expressive du modèle en mélangeant des caractéristiques à haute fréquence et à basse fréquence avec des fréquences variables, lui permettant de capturer à la fois des informations locales et globales de manière efficace. De plus, nous introduisons des mécanismes adaptés au déploiement tels que la Reparamétrisation Multigroupe Convolutive (gMLP), l'Auto-Attention Multi-Têtes Légère (RLMHSA) et le Bloc de Fusion Convolutif (CFB) pour améliorer davantage les performances du modèle et réduire la surcharge computationnelle. Nos expériences démontrent que FMViT surpasse les CNN, ViTs et architectures hybrides CNN-Transformers existants en termes de compromis latence/précision pour diverses tâches de vision. Sur la plateforme TensorRT, FMViT surpasse Resnet101 de 2,5 % (83,3 % contre 80,8 %) en précision top-1 sur le jeu de données ImageNet tout en maintenant une latence d'inférence similaire. De plus, FMViT atteint des performances comparables à EfficientNet-B5, mais avec une amélioration de 43 % en vitesse d'inférence. Sur CoreML, FMViT surpasse MobileOne de 2,6 % en précision top-1 sur le jeu de données ImageNet, avec une latence d'inférence comparable à MobileOne (78,5 % contre 75,9 %). Notre code est disponible à l'adresse suivante : https://github.com/tany0699/FMViT.

English

The transformer model has gained widespread adoption in computer vision tasks in recent times. However, due to the quadratic time and memory complexity of self-attention, which is proportional to the number of input tokens, most existing Vision Transformers (ViTs) encounter challenges in achieving efficient performance in practical industrial deployment scenarios, such as TensorRT and CoreML, where traditional CNNs excel. Although some recent attempts have been made to design CNN-Transformer hybrid architectures to tackle this problem, their overall performance has not met expectations. To tackle these challenges, we propose an efficient hybrid ViT architecture named FMViT. This approach enhances the model's expressive power by blending high-frequency features and low-frequency features with varying frequencies, enabling it to capture both local and global information effectively. Additionally, we introduce deploy-friendly mechanisms such as Convolutional Multigroup Reparameterization (gMLP), Lightweight Multi-head Self-Attention (RLMHSA), and Convolutional Fusion Block (CFB) to further improve the model's performance and reduce computational overhead. Our experiments demonstrate that FMViT surpasses existing CNNs, ViTs, and CNNTransformer hybrid architectures in terms of latency/accuracy trade-offs for various vision tasks. On the TensorRT platform, FMViT outperforms Resnet101 by 2.5% (83.3% vs. 80.8%) in top-1 accuracy on the ImageNet dataset while maintaining similar inference latency. Moreover, FMViT achieves comparable performance with EfficientNet-B5, but with a 43% improvement in inference speed. On CoreML, FMViT outperforms MobileOne by 2.6% in top-1 accuracy on the ImageNet dataset, with inference latency comparable to MobileOne (78.5% vs. 75.9%). Our code can be found at https://github.com/tany0699/FMViT.

FMViT : Un Vision Transformer à mélange de fréquences multiples

FMViT: A multiple-frequency mixing Vision Transformer

papers.abstract

Support