VMamba: Modello a Spazio degli Stati Visivo

Abstract

Le Reti Neurali Convoluzionali (CNN) e i Vision Transformer (ViT) rappresentano i due modelli di base più popolari per l'apprendimento di rappresentazioni visive. Mentre le CNN mostrano una notevole scalabilità con una complessità lineare rispetto alla risoluzione dell'immagine, i ViT le superano in termini di capacità di adattamento nonostante debbano affrontare una complessità quadratica. Un'analisi più approfondita rivela che i ViT raggiungono prestazioni superiori nella modellazione visiva grazie all'incorporazione di campi ricettivi globali e pesi dinamici. Questa osservazione ci motiva a proporre una nuova architettura che eredita questi componenti migliorando al contempo l'efficienza computazionale. A tal fine, traiamo ispirazione dal recentemente introdotto modello di stato spazio e proponiamo il Visual State Space Model (VMamba), che raggiunge una complessità lineare senza sacrificare i campi ricettivi globali. Per affrontare il problema della sensibilità alla direzione, introduciamo il Cross-Scan Module (CSM) per attraversare il dominio spaziale e convertire qualsiasi immagine visiva non causale in sequenze ordinate di patch. I risultati sperimentali estesi confermano che VMamba non solo dimostra capacità promettenti in vari compiti di percezione visiva, ma mostra anche vantaggi più marcati rispetto ai benchmark consolidati all'aumentare della risoluzione dell'immagine. Il codice sorgente è disponibile all'indirizzo https://github.com/MzeroMiko/VMamba.

English

Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) stand as the two most popular foundation models for visual representation learning. While CNNs exhibit remarkable scalability with linear complexity w.r.t. image resolution, ViTs surpass them in fitting capabilities despite contending with quadratic complexity. A closer inspection reveals that ViTs achieve superior visual modeling performance through the incorporation of global receptive fields and dynamic weights. This observation motivates us to propose a novel architecture that inherits these components while enhancing computational efficiency. To this end, we draw inspiration from the recently introduced state space model and propose the Visual State Space Model (VMamba), which achieves linear complexity without sacrificing global receptive fields. To address the encountered direction-sensitive issue, we introduce the Cross-Scan Module (CSM) to traverse the spatial domain and convert any non-causal visual image into order patch sequences. Extensive experimental results substantiate that VMamba not only demonstrates promising capabilities across various visual perception tasks, but also exhibits more pronounced advantages over established benchmarks as the image resolution increases. Source code has been available at https://github.com/MzeroMiko/VMamba.

VMamba: Modello a Spazio degli Stati Visivo

VMamba: Visual State Space Model

Abstract

Support