RMT: Redes Retentivas Encuentran a los Transformers de Visión
RMT: Retentive Networks Meet Vision Transformers
September 20, 2023
Autores: Qihang Fan, Huaibo Huang, Mingrui Chen, Hongmin Liu, Ran He
cs.AI
Resumen
Transformer apareció por primera vez en el campo del procesamiento del lenguaje natural y posteriormente se trasladó al dominio de la visión por computadora, donde demuestra un rendimiento excepcional en tareas de visión. Sin embargo, recientemente, Retentive Network (RetNet) ha surgido como una arquitectura con el potencial de reemplazar a Transformer, atrayendo una atención generalizada en la comunidad de PLN. Por ello, nos planteamos la pregunta de si trasladar la idea de RetNet a la visión también podría ofrecer un rendimiento sobresaliente en tareas visuales. Para abordar esto, combinamos RetNet y Transformer para proponer RMT. Inspirado por RetNet, RMT introduce un decaimiento explícito en la columna vertebral de la visión, incorporando conocimiento previo relacionado con distancias espaciales al modelo de visión. Este conocimiento espacial relacionado con la distancia permite un control explícito del rango de tokens al que cada token puede atender. Además, para reducir el costo computacional del modelado global, descomponemos este proceso de modelado a lo largo de los dos ejes coordenados de la imagen. Experimentos exhaustivos han demostrado que nuestro RMT exhibe un rendimiento excepcional en diversas tareas de visión por computadora. Por ejemplo, RMT alcanza un 84.1% de precisión Top1 en ImageNet-1k utilizando apenas 4.5G FLOPs. Hasta donde sabemos, entre todos los modelos, RMT logra la mayor precisión Top1 cuando los modelos tienen un tamaño similar y se entrenan con la misma estrategia. Además, RMT supera significativamente a las columnas vertebrales de visión existentes en tareas posteriores como detección de objetos, segmentación de instancias y segmentación semántica. Nuestro trabajo aún está en progreso.
English
Transformer first appears in the field of natural language processing and is
later migrated to the computer vision domain, where it demonstrates excellent
performance in vision tasks. However, recently, Retentive Network (RetNet) has
emerged as an architecture with the potential to replace Transformer,
attracting widespread attention in the NLP community. Therefore, we raise the
question of whether transferring RetNet's idea to vision can also bring
outstanding performance to vision tasks. To address this, we combine RetNet and
Transformer to propose RMT. Inspired by RetNet, RMT introduces explicit decay
into the vision backbone, bringing prior knowledge related to spatial distances
to the vision model. This distance-related spatial prior allows for explicit
control of the range of tokens that each token can attend to. Additionally, to
reduce the computational cost of global modeling, we decompose this modeling
process along the two coordinate axes of the image. Abundant experiments have
demonstrated that our RMT exhibits exceptional performance across various
computer vision tasks. For example, RMT achieves 84.1% Top1-acc on ImageNet-1k
using merely 4.5G FLOPs. To the best of our knowledge, among all models, RMT
achieves the highest Top1-acc when models are of similar size and trained with
the same strategy. Moreover, RMT significantly outperforms existing vision
backbones in downstream tasks such as object detection, instance segmentation,
and semantic segmentation. Our work is still in progress.