VMamba: Modelo de Espaço de Estados Visual

Resumo

Redes Neurais Convolucionais (CNNs) e Vision Transformers (ViTs) destacam-se como os dois modelos fundamentais mais populares para aprendizado de representação visual. Enquanto as CNNs exibem uma escalabilidade notável com complexidade linear em relação à resolução da imagem, os ViTs superam-nas em capacidade de ajuste, apesar de lidarem com complexidade quadrática. Uma análise mais detalhada revela que os ViTs alcançam um desempenho superior em modelagem visual por meio da incorporação de campos receptivos globais e pesos dinâmicos. Essa observação nos motiva a propor uma nova arquitetura que herda esses componentes enquanto melhora a eficiência computacional. Para isso, inspiramo-nos no recentemente introduzido modelo de espaço de estados e propomos o Visual State Space Model (VMamba), que alcança complexidade linear sem sacrificar os campos receptivos globais. Para abordar o problema de sensibilidade à direção encontrado, introduzimos o Módulo de Varredura Cruzada (Cross-Scan Module - CSM) para percorrer o domínio espacial e converter qualquer imagem visual não causal em sequências ordenadas de patches. Resultados experimentais extensivos corroboram que o VMamba não apenas demonstra capacidades promissoras em diversas tarefas de percepção visual, mas também exibe vantagens mais pronunciadas em relação a benchmarks estabelecidos à medida que a resolução da imagem aumenta. O código-fonte está disponível em https://github.com/MzeroMiko/VMamba.

English

Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) stand as the two most popular foundation models for visual representation learning. While CNNs exhibit remarkable scalability with linear complexity w.r.t. image resolution, ViTs surpass them in fitting capabilities despite contending with quadratic complexity. A closer inspection reveals that ViTs achieve superior visual modeling performance through the incorporation of global receptive fields and dynamic weights. This observation motivates us to propose a novel architecture that inherits these components while enhancing computational efficiency. To this end, we draw inspiration from the recently introduced state space model and propose the Visual State Space Model (VMamba), which achieves linear complexity without sacrificing global receptive fields. To address the encountered direction-sensitive issue, we introduce the Cross-Scan Module (CSM) to traverse the spatial domain and convert any non-causal visual image into order patch sequences. Extensive experimental results substantiate that VMamba not only demonstrates promising capabilities across various visual perception tasks, but also exhibits more pronounced advantages over established benchmarks as the image resolution increases. Source code has been available at https://github.com/MzeroMiko/VMamba.

VMamba: Modelo de Espaço de Estados Visual

VMamba: Visual State Space Model

Resumo

Support