VMamba: Modello a Spazio degli Stati Visivo
VMamba: Visual State Space Model
January 18, 2024
Autori: Yue Liu, Yunjie Tian, Yuzhong Zhao, Hongtian Yu, Lingxi Xie, Yaowei Wang, Qixiang Ye, Yunfan Liu
cs.AI
Abstract
Le Reti Neurali Convoluzionali (CNN) e i Vision Transformer (ViT) rappresentano i due modelli di base più popolari per l'apprendimento di rappresentazioni visive. Mentre le CNN mostrano una notevole scalabilità con una complessità lineare rispetto alla risoluzione dell'immagine, i ViT le superano in termini di capacità di adattamento nonostante debbano affrontare una complessità quadratica. Un'analisi più approfondita rivela che i ViT raggiungono prestazioni superiori nella modellazione visiva grazie all'incorporazione di campi ricettivi globali e pesi dinamici. Questa osservazione ci motiva a proporre una nuova architettura che eredita questi componenti migliorando al contempo l'efficienza computazionale. A tal fine, traiamo ispirazione dal recentemente introdotto modello di stato spazio e proponiamo il Visual State Space Model (VMamba), che raggiunge una complessità lineare senza sacrificare i campi ricettivi globali. Per affrontare il problema della sensibilità alla direzione, introduciamo il Cross-Scan Module (CSM) per attraversare il dominio spaziale e convertire qualsiasi immagine visiva non causale in sequenze ordinate di patch. I risultati sperimentali estesi confermano che VMamba non solo dimostra capacità promettenti in vari compiti di percezione visiva, ma mostra anche vantaggi più marcati rispetto ai benchmark consolidati all'aumentare della risoluzione dell'immagine. Il codice sorgente è disponibile all'indirizzo https://github.com/MzeroMiko/VMamba.
English
Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) stand as
the two most popular foundation models for visual representation learning.
While CNNs exhibit remarkable scalability with linear complexity w.r.t. image
resolution, ViTs surpass them in fitting capabilities despite contending with
quadratic complexity. A closer inspection reveals that ViTs achieve superior
visual modeling performance through the incorporation of global receptive
fields and dynamic weights. This observation motivates us to propose a novel
architecture that inherits these components while enhancing computational
efficiency. To this end, we draw inspiration from the recently introduced state
space model and propose the Visual State Space Model (VMamba), which achieves
linear complexity without sacrificing global receptive fields. To address the
encountered direction-sensitive issue, we introduce the Cross-Scan Module (CSM)
to traverse the spatial domain and convert any non-causal visual image into
order patch sequences. Extensive experimental results substantiate that VMamba
not only demonstrates promising capabilities across various visual perception
tasks, but also exhibits more pronounced advantages over established benchmarks
as the image resolution increases. Source code has been available at
https://github.com/MzeroMiko/VMamba.