ChatPaper.aiChatPaper

RMT : Les réseaux récurrents rencontrent les Transformers pour la vision

RMT: Retentive Networks Meet Vision Transformers

September 20, 2023
Auteurs: Qihang Fan, Huaibo Huang, Mingrui Chen, Hongmin Liu, Ran He
cs.AI

Résumé

Transformer apparaît initialement dans le domaine du traitement du langage naturel avant d'être adapté à la vision par ordinateur, où il démontre des performances exceptionnelles dans les tâches visuelles. Cependant, récemment, le Réseau Rétentif (RetNet) a émergé comme une architecture susceptible de remplacer Transformer, attirant une attention considérable dans la communauté du NLP. Par conséquent, nous nous interrogeons sur la possibilité que l'application des idées de RetNet à la vision puisse également apporter des performances remarquables aux tâches visuelles. Pour répondre à cette question, nous combinons RetNet et Transformer pour proposer RMT. Inspiré par RetNet, RMT introduit une décroissance explicite dans le backbone visuel, intégrant des connaissances préalables liées aux distances spatiales au modèle de vision. Ce préalable spatial lié à la distance permet un contrôle explicite de la portée des tokens auxquels chaque token peut prêter attention. De plus, pour réduire le coût computationnel de la modélisation globale, nous décomposons ce processus de modélisation selon les deux axes de coordonnées de l'image. De nombreuses expériences ont démontré que notre RMT présente des performances exceptionnelles dans diverses tâches de vision par ordinateur. Par exemple, RMT atteint 84,1 % de précision Top1 sur ImageNet-1k en utilisant seulement 4,5G FLOPs. À notre connaissance, parmi tous les modèles, RMT atteint la plus haute précision Top1 lorsque les modèles sont de taille similaire et entraînés avec la même stratégie. De plus, RMT surpasse significativement les backbones visuels existants dans les tâches en aval telles que la détection d'objets, la segmentation d'instances et la segmentation sémantique. Notre travail est encore en cours.
English
Transformer first appears in the field of natural language processing and is later migrated to the computer vision domain, where it demonstrates excellent performance in vision tasks. However, recently, Retentive Network (RetNet) has emerged as an architecture with the potential to replace Transformer, attracting widespread attention in the NLP community. Therefore, we raise the question of whether transferring RetNet's idea to vision can also bring outstanding performance to vision tasks. To address this, we combine RetNet and Transformer to propose RMT. Inspired by RetNet, RMT introduces explicit decay into the vision backbone, bringing prior knowledge related to spatial distances to the vision model. This distance-related spatial prior allows for explicit control of the range of tokens that each token can attend to. Additionally, to reduce the computational cost of global modeling, we decompose this modeling process along the two coordinate axes of the image. Abundant experiments have demonstrated that our RMT exhibits exceptional performance across various computer vision tasks. For example, RMT achieves 84.1% Top1-acc on ImageNet-1k using merely 4.5G FLOPs. To the best of our knowledge, among all models, RMT achieves the highest Top1-acc when models are of similar size and trained with the same strategy. Moreover, RMT significantly outperforms existing vision backbones in downstream tasks such as object detection, instance segmentation, and semantic segmentation. Our work is still in progress.
PDF332December 15, 2024