LocalMamba: Modelo de Espacio de Estados Visual con Escaneo Selectivo Ventaneado
LocalMamba: Visual State Space Model with Windowed Selective Scan
March 14, 2024
Autores: Tao Huang, Xiaohuan Pei, Shan You, Fei Wang, Chen Qian, Chang Xu
cs.AI
Resumen
Los recientes avances en los modelos de espacio de estados, particularmente Mamba, han demostrado un progreso significativo en el modelado de secuencias largas para tareas como la comprensión del lenguaje. Sin embargo, su aplicación en tareas de visión no ha superado notablemente el rendimiento de las Redes Neuronales Convolucionales (CNNs) tradicionales y los Transformers de Visión (ViTs). Este artículo postula que la clave para mejorar Vision Mamba (ViM) radica en optimizar las direcciones de escaneo para el modelado de secuencias. Los enfoques tradicionales de ViM, que aplanan los tokens espaciales, pasan por alto la preservación de las dependencias locales 2D, lo que alarga la distancia entre tokens adyacentes. Introducimos una novedosa estrategia de escaneo local que divide las imágenes en ventanas distintas, capturando eficazmente las dependencias locales mientras se mantiene una perspectiva global. Además, reconociendo las preferencias variables de patrones de escaneo en las diferentes capas de la red, proponemos un método dinámico para buscar de manera independiente las opciones de escaneo óptimas para cada capa, mejorando sustancialmente el rendimiento. Experimentos exhaustivos en modelos tanto planos como jerárquicos destacan la superioridad de nuestro enfoque en la captura efectiva de representaciones de imágenes. Por ejemplo, nuestro modelo supera significativamente a Vim-Ti en un 3.1% en ImageNet con los mismos 1.5G FLOPs. El código está disponible en: https://github.com/hunto/LocalMamba.
English
Recent advancements in state space models, notably Mamba, have demonstrated
significant progress in modeling long sequences for tasks like language
understanding. Yet, their application in vision tasks has not markedly
surpassed the performance of traditional Convolutional Neural Networks (CNNs)
and Vision Transformers (ViTs). This paper posits that the key to enhancing
Vision Mamba (ViM) lies in optimizing scan directions for sequence modeling.
Traditional ViM approaches, which flatten spatial tokens, overlook the
preservation of local 2D dependencies, thereby elongating the distance between
adjacent tokens. We introduce a novel local scanning strategy that divides
images into distinct windows, effectively capturing local dependencies while
maintaining a global perspective. Additionally, acknowledging the varying
preferences for scan patterns across different network layers, we propose a
dynamic method to independently search for the optimal scan choices for each
layer, substantially improving performance. Extensive experiments across both
plain and hierarchical models underscore our approach's superiority in
effectively capturing image representations. For example, our model
significantly outperforms Vim-Ti by 3.1% on ImageNet with the same 1.5G FLOPs.
Code is available at: https://github.com/hunto/LocalMamba.Summary
AI-Generated Summary