VMamba: Modelo de Espacio de Estados Visual

Resumen

Las Redes Neuronales Convolucionales (CNNs) y los Transformers de Visión (ViTs) se posicionan como los dos modelos base más populares para el aprendizaje de representaciones visuales. Mientras que las CNNs exhiben una escalabilidad notable con complejidad lineal respecto a la resolución de la imagen, los ViTs las superan en capacidad de ajuste a pesar de lidiar con una complejidad cuadrática. Un análisis más detallado revela que los ViTs logran un rendimiento superior en modelado visual mediante la incorporación de campos receptivos globales y pesos dinámicos. Esta observación nos motiva a proponer una nueva arquitectura que herede estos componentes mientras mejora la eficiencia computacional. Para ello, nos inspiramos en el recientemente introducido modelo de espacio de estados y proponemos el Modelo de Espacio de Estados Visual (VMamba), que alcanza complejidad lineal sin sacrificar los campos receptivos globales. Para abordar el problema de sensibilidad direccional encontrado, introducimos el Módulo de Escaneo Cruzado (CSM) para recorrer el dominio espacial y convertir cualquier imagen visual no causal en secuencias de parches ordenados. Extensos resultados experimentales corroboran que VMamba no solo demuestra capacidades prometedoras en diversas tareas de percepción visual, sino que también exhibe ventajas más pronunciadas sobre los puntos de referencia establecidos a medida que aumenta la resolución de la imagen. El código fuente está disponible en https://github.com/MzeroMiko/VMamba.

English

Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) stand as the two most popular foundation models for visual representation learning. While CNNs exhibit remarkable scalability with linear complexity w.r.t. image resolution, ViTs surpass them in fitting capabilities despite contending with quadratic complexity. A closer inspection reveals that ViTs achieve superior visual modeling performance through the incorporation of global receptive fields and dynamic weights. This observation motivates us to propose a novel architecture that inherits these components while enhancing computational efficiency. To this end, we draw inspiration from the recently introduced state space model and propose the Visual State Space Model (VMamba), which achieves linear complexity without sacrificing global receptive fields. To address the encountered direction-sensitive issue, we introduce the Cross-Scan Module (CSM) to traverse the spatial domain and convert any non-causal visual image into order patch sequences. Extensive experimental results substantiate that VMamba not only demonstrates promising capabilities across various visual perception tasks, but also exhibits more pronounced advantages over established benchmarks as the image resolution increases. Source code has been available at https://github.com/MzeroMiko/VMamba.

VMamba: Modelo de Espacio de Estados Visual

VMamba: Visual State Space Model

Resumen

Support