VMamba: Visuelles Zustandsraummodell
VMamba: Visual State Space Model
January 18, 2024
Autoren: Yue Liu, Yunjie Tian, Yuzhong Zhao, Hongtian Yu, Lingxi Xie, Yaowei Wang, Qixiang Ye, Yunfan Liu
cs.AI
Zusammenfassung
Convolutional Neural Networks (CNNs) und Vision Transformers (ViTs) gelten als die beiden populärsten Grundlagenmodelle für das Lernen visueller Repräsentationen. Während CNNs eine bemerkenswerte Skalierbarkeit mit linearer Komplexität in Bezug auf die Bildauflösung aufweisen, übertreffen ViTs sie in ihrer Anpassungsfähigkeit, obwohl sie mit quadratischer Komplexität zu kämpfen haben. Eine genauere Betrachtung zeigt, dass ViTs eine überlegene Leistung bei der visuellen Modellierung durch die Einbeziehung globaler rezeptiver Felder und dynamischer Gewichte erreichen. Diese Beobachtung motiviert uns, eine neuartige Architektur vorzuschlagen, die diese Komponenten übernimmt und gleichzeitig die Recheneffizienz verbessert. Zu diesem Zweck lassen wir uns von dem kürzlich eingeführten Zustandsraummodell inspirieren und schlagen das Visual State Space Model (VMamba) vor, das lineare Komplexität erreicht, ohne globale rezeptiver Felder zu opfern. Um das auftretende richtungssensitive Problem zu lösen, führen wir das Cross-Scan Module (CSM) ein, um den räumlichen Bereich zu durchlaufen und jedes nicht-kausale visuelle Bild in geordnete Patch-Sequenzen umzuwandeln. Umfangreiche experimentelle Ergebnisse belegen, dass VMamba nicht nur vielversprechende Fähigkeiten bei verschiedenen visuellen Wahrnehmungsaufgaben zeigt, sondern auch deutlichere Vorteile gegenüber etablierten Benchmarks mit zunehmender Bildauflösung aufweist. Der Quellcode ist unter https://github.com/MzeroMiko/VMamba verfügbar.
English
Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) stand as
the two most popular foundation models for visual representation learning.
While CNNs exhibit remarkable scalability with linear complexity w.r.t. image
resolution, ViTs surpass them in fitting capabilities despite contending with
quadratic complexity. A closer inspection reveals that ViTs achieve superior
visual modeling performance through the incorporation of global receptive
fields and dynamic weights. This observation motivates us to propose a novel
architecture that inherits these components while enhancing computational
efficiency. To this end, we draw inspiration from the recently introduced state
space model and propose the Visual State Space Model (VMamba), which achieves
linear complexity without sacrificing global receptive fields. To address the
encountered direction-sensitive issue, we introduce the Cross-Scan Module (CSM)
to traverse the spatial domain and convert any non-causal visual image into
order patch sequences. Extensive experimental results substantiate that VMamba
not only demonstrates promising capabilities across various visual perception
tasks, but also exhibits more pronounced advantages over established benchmarks
as the image resolution increases. Source code has been available at
https://github.com/MzeroMiko/VMamba.