LocalMamba: Modello a Spazio di Stati Visivo con Scansione Selettiva a Finestra

Abstract

I recenti progressi nei modelli a spazio di stato, in particolare Mamba, hanno dimostrato significativi avanzamenti nella modellazione di sequenze lunghe per compiti come la comprensione del linguaggio. Tuttavia, la loro applicazione nei compiti visivi non ha superato in modo marcato le prestazioni delle tradizionali Reti Neurali Convoluzionali (CNN) e dei Vision Transformer (ViT). Questo articolo sostiene che la chiave per migliorare il Vision Mamba (ViM) risiede nell'ottimizzazione delle direzioni di scansione per la modellazione delle sequenze. Gli approcci tradizionali di ViM, che appiattiscono i token spaziali, trascurano la preservazione delle dipendenze locali 2D, allungando così la distanza tra token adiacenti. Introduciamo una nuova strategia di scansione locale che divide le immagini in finestre distinte, catturando efficacemente le dipendenze locali mantenendo una prospettiva globale. Inoltre, riconoscendo le diverse preferenze per i pattern di scansione tra i vari strati della rete, proponiamo un metodo dinamico per cercare in modo indipendente le scelte di scansione ottimali per ciascuno strato, migliorando sostanzialmente le prestazioni. Esperimenti estesi su modelli sia semplici che gerarchici evidenziano la superiorità del nostro approccio nel catturare efficacemente le rappresentazioni delle immagini. Ad esempio, il nostro modello supera significativamente Vim-Ti del 3.1% su ImageNet con gli stessi 1.5G FLOP. Il codice è disponibile all'indirizzo: https://github.com/hunto/LocalMamba.

English

Recent advancements in state space models, notably Mamba, have demonstrated significant progress in modeling long sequences for tasks like language understanding. Yet, their application in vision tasks has not markedly surpassed the performance of traditional Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs). This paper posits that the key to enhancing Vision Mamba (ViM) lies in optimizing scan directions for sequence modeling. Traditional ViM approaches, which flatten spatial tokens, overlook the preservation of local 2D dependencies, thereby elongating the distance between adjacent tokens. We introduce a novel local scanning strategy that divides images into distinct windows, effectively capturing local dependencies while maintaining a global perspective. Additionally, acknowledging the varying preferences for scan patterns across different network layers, we propose a dynamic method to independently search for the optimal scan choices for each layer, substantially improving performance. Extensive experiments across both plain and hierarchical models underscore our approach's superiority in effectively capturing image representations. For example, our model significantly outperforms Vim-Ti by 3.1% on ImageNet with the same 1.5G FLOPs. Code is available at: https://github.com/hunto/LocalMamba.

LocalMamba: Modello a Spazio di Stati Visivo con Scansione Selettiva a Finestra

LocalMamba: Visual State Space Model with Windowed Selective Scan

Abstract

Support