ChatPaper.aiChatPaper

RMT: Retentive Netzwerke treffen auf Vision Transformers

RMT: Retentive Networks Meet Vision Transformers

September 20, 2023
Autoren: Qihang Fan, Huaibo Huang, Mingrui Chen, Hongmin Liu, Ran He
cs.AI

Zusammenfassung

Transformer tauchte zunächst im Bereich der natürlichen Sprachverarbeitung auf und wurde später in den Bereich der Computer Vision übertragen, wo er hervorragende Leistungen bei visuellen Aufgaben zeigt. In jüngster Zeit hat jedoch das Retentive Network (RetNet) als Architektur mit dem Potenzial, Transformer zu ersetzen, breite Aufmerksamkeit in der NLP-Community erregt. Daher stellen wir die Frage, ob die Übertragung der Idee von RetNet auf die Vision ebenfalls herausragende Leistungen bei visuellen Aufgaben bringen kann. Um dies zu untersuchen, kombinieren wir RetNet und Transformer und schlagen RMT vor. Inspiriert von RetNet führt RMT eine explizite Abnahme in das Vision-Backbone ein, wodurch dem Vision-Modell Vorwissen im Zusammenhang mit räumlichen Distanzen vermittelt wird. Diese distanzbezogene räumliche Priorität ermöglicht eine explizite Kontrolle des Bereichs von Tokens, den jeder Token berücksichtigen kann. Zusätzlich zerlegen wir den Prozess der globalen Modellierung entlang der beiden Koordinatenachsen des Bildes, um die Rechenkosten zu reduzieren. Umfangreiche Experimente haben gezeigt, dass unser RMT in verschiedenen Computer-Vision-Aufgaben außergewöhnliche Leistungen erbringt. Beispielsweise erreicht RMT eine Top1-Genauigkeit von 84,1 % auf ImageNet-1k mit lediglich 4,5G FLOPs. Nach unserem Wissen erreicht RMT unter allen Modellen die höchste Top1-Genauigkeit, wenn Modelle ähnlicher Größe und mit derselben Strategie trainiert werden. Darüber hinaus übertrifft RMT bestehende Vision-Backbones in Downstream-Aufgaben wie Objekterkennung, Instanzsegmentierung und semantischer Segmentierung deutlich. Unsere Arbeit ist noch im Gange.
English
Transformer first appears in the field of natural language processing and is later migrated to the computer vision domain, where it demonstrates excellent performance in vision tasks. However, recently, Retentive Network (RetNet) has emerged as an architecture with the potential to replace Transformer, attracting widespread attention in the NLP community. Therefore, we raise the question of whether transferring RetNet's idea to vision can also bring outstanding performance to vision tasks. To address this, we combine RetNet and Transformer to propose RMT. Inspired by RetNet, RMT introduces explicit decay into the vision backbone, bringing prior knowledge related to spatial distances to the vision model. This distance-related spatial prior allows for explicit control of the range of tokens that each token can attend to. Additionally, to reduce the computational cost of global modeling, we decompose this modeling process along the two coordinate axes of the image. Abundant experiments have demonstrated that our RMT exhibits exceptional performance across various computer vision tasks. For example, RMT achieves 84.1% Top1-acc on ImageNet-1k using merely 4.5G FLOPs. To the best of our knowledge, among all models, RMT achieves the highest Top1-acc when models are of similar size and trained with the same strategy. Moreover, RMT significantly outperforms existing vision backbones in downstream tasks such as object detection, instance segmentation, and semantic segmentation. Our work is still in progress.
PDF332December 15, 2024