VMamba: Modelo de Espacio de Estados Visual
VMamba: Visual State Space Model
January 18, 2024
Autores: Yue Liu, Yunjie Tian, Yuzhong Zhao, Hongtian Yu, Lingxi Xie, Yaowei Wang, Qixiang Ye, Yunfan Liu
cs.AI
Resumen
Las Redes Neuronales Convolucionales (CNNs) y los Transformers de Visión (ViTs) se posicionan como los dos modelos base más populares para el aprendizaje de representaciones visuales. Mientras que las CNNs exhiben una escalabilidad notable con complejidad lineal respecto a la resolución de la imagen, los ViTs las superan en capacidad de ajuste a pesar de lidiar con una complejidad cuadrática. Un análisis más detallado revela que los ViTs logran un rendimiento superior en modelado visual mediante la incorporación de campos receptivos globales y pesos dinámicos. Esta observación nos motiva a proponer una nueva arquitectura que herede estos componentes mientras mejora la eficiencia computacional. Para ello, nos inspiramos en el recientemente introducido modelo de espacio de estados y proponemos el Modelo de Espacio de Estados Visual (VMamba), que alcanza complejidad lineal sin sacrificar los campos receptivos globales. Para abordar el problema de sensibilidad direccional encontrado, introducimos el Módulo de Escaneo Cruzado (CSM) para recorrer el dominio espacial y convertir cualquier imagen visual no causal en secuencias de parches ordenados. Extensos resultados experimentales corroboran que VMamba no solo demuestra capacidades prometedoras en diversas tareas de percepción visual, sino que también exhibe ventajas más pronunciadas sobre los puntos de referencia establecidos a medida que aumenta la resolución de la imagen. El código fuente está disponible en https://github.com/MzeroMiko/VMamba.
English
Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) stand as
the two most popular foundation models for visual representation learning.
While CNNs exhibit remarkable scalability with linear complexity w.r.t. image
resolution, ViTs surpass them in fitting capabilities despite contending with
quadratic complexity. A closer inspection reveals that ViTs achieve superior
visual modeling performance through the incorporation of global receptive
fields and dynamic weights. This observation motivates us to propose a novel
architecture that inherits these components while enhancing computational
efficiency. To this end, we draw inspiration from the recently introduced state
space model and propose the Visual State Space Model (VMamba), which achieves
linear complexity without sacrificing global receptive fields. To address the
encountered direction-sensitive issue, we introduce the Cross-Scan Module (CSM)
to traverse the spatial domain and convert any non-causal visual image into
order patch sequences. Extensive experimental results substantiate that VMamba
not only demonstrates promising capabilities across various visual perception
tasks, but also exhibits more pronounced advantages over established benchmarks
as the image resolution increases. Source code has been available at
https://github.com/MzeroMiko/VMamba.