LocalMamba: Visuelles Zustandsraummodell mit selektivem Scanfenster
LocalMamba: Visual State Space Model with Windowed Selective Scan
March 14, 2024
Autoren: Tao Huang, Xiaohuan Pei, Shan You, Fei Wang, Chen Qian, Chang Xu
cs.AI
Zusammenfassung
Neueste Fortschritte in Zustandsraummodellen, insbesondere Mamba, haben signifikante Fortschritte bei der Modellierung langer Sequenzen für Aufgaben wie Sprachverständnis gezeigt. Dennoch hat ihre Anwendung in Vision-Aufgaben die Leistung traditioneller Convolutional Neural Networks (CNNs) und Vision Transformers (ViTs) nicht wesentlich übertroffen. Diese Arbeit postuliert, dass der Schlüssel zur Verbesserung von Vision Mamba (ViM) in der Optimierung von Scan-Richtungen für die Sequenzmodellierung liegt. Traditionelle ViM-Ansätze, die räumliche Token abflachen, vernachlässigen die Erhaltung lokaler 2D-Abhängigkeiten, wodurch der Abstand zwischen benachbarten Tokens verlängert wird. Wir stellen eine neuartige lokale Scanstrategie vor, die Bilder in verschiedene Fenster unterteilt, um lokale Abhängigkeiten effektiv zu erfassen, während ein globaler Blickwinkel beibehalten wird. Darüber hinaus schlagen wir vor, angesichts der unterschiedlichen Vorlieben für Scan-Muster in verschiedenen Netzwerkschichten eine dynamische Methode vor, um unabhhängig nach den optimalen Scan-Entscheidungen für jede Schicht zu suchen, was die Leistung erheblich verbessert. Umfangreiche Experimente sowohl mit einfachen als auch hierarchischen Modellen unterstreichen die Überlegenheit unseres Ansatzes bei der effektiven Erfassung von Bildrepräsentationen. Zum Beispiel übertrifft unser Modell Vim-Ti auf ImageNet um 3,1% bei denselben 1,5G FLOPs. Der Code ist verfügbar unter: https://github.com/hunto/LocalMamba.
English
Recent advancements in state space models, notably Mamba, have demonstrated
significant progress in modeling long sequences for tasks like language
understanding. Yet, their application in vision tasks has not markedly
surpassed the performance of traditional Convolutional Neural Networks (CNNs)
and Vision Transformers (ViTs). This paper posits that the key to enhancing
Vision Mamba (ViM) lies in optimizing scan directions for sequence modeling.
Traditional ViM approaches, which flatten spatial tokens, overlook the
preservation of local 2D dependencies, thereby elongating the distance between
adjacent tokens. We introduce a novel local scanning strategy that divides
images into distinct windows, effectively capturing local dependencies while
maintaining a global perspective. Additionally, acknowledging the varying
preferences for scan patterns across different network layers, we propose a
dynamic method to independently search for the optimal scan choices for each
layer, substantially improving performance. Extensive experiments across both
plain and hierarchical models underscore our approach's superiority in
effectively capturing image representations. For example, our model
significantly outperforms Vim-Ti by 3.1% on ImageNet with the same 1.5G FLOPs.
Code is available at: https://github.com/hunto/LocalMamba.Summary
AI-Generated Summary