ChatPaper.aiChatPaper

VMamba: Visueel Toestandsruimtemodel

VMamba: Visual State Space Model

January 18, 2024
Auteurs: Yue Liu, Yunjie Tian, Yuzhong Zhao, Hongtian Yu, Lingxi Xie, Yaowei Wang, Qixiang Ye, Yunfan Liu
cs.AI

Samenvatting

Convolutionele Neurale Netwerken (CNN's) en Vision Transformers (ViT's) gelden als de twee meest populaire basisarchitecturen voor het leren van visuele representaties. Terwijl CNN's opmerkelijke schaalbaarheid vertonen met lineaire complexiteit ten opzichte van de beeldresolutie, overtreffen ViT's hen in aanpassingsvermogen ondanks hun kwadratische complexiteit. Een nadere inspectie onthult dat ViT's superieure prestaties in visuele modellering bereiken door het integreren van globale receptieve velden en dynamische gewichten. Deze observatie motiveert ons om een nieuwe architectuur voor te stellen die deze componenten overneemt terwijl de rekenkundige efficiëntie wordt verbeterd. Hiertoe putten we inspiratie uit het recent geïntroduceerde toestandsruimtemodel en introduceren we het Visuele Toestandsruimtemodel (VMamba), dat lineaire complexiteit bereikt zonder globale receptieve velden op te offeren. Om het tegengekomen richtingsgevoelige probleem aan te pakken, introduceren we de Cross-Scan Module (CSM) om het ruimtelijke domein te doorlopen en elk niet-causaal visueel beeld om te zetten in geordende patchreeksen. Uitgebreide experimentele resultaten bevestigen dat VMamba niet alleen veelbelovende capaciteiten toont in diverse visuele perceptietaken, maar ook meer uitgesproken voordelen vertoont ten opzichte van gevestigde benchmarks naarmate de beeldresolutie toeneemt. De broncode is beschikbaar op https://github.com/MzeroMiko/VMamba.
English
Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) stand as the two most popular foundation models for visual representation learning. While CNNs exhibit remarkable scalability with linear complexity w.r.t. image resolution, ViTs surpass them in fitting capabilities despite contending with quadratic complexity. A closer inspection reveals that ViTs achieve superior visual modeling performance through the incorporation of global receptive fields and dynamic weights. This observation motivates us to propose a novel architecture that inherits these components while enhancing computational efficiency. To this end, we draw inspiration from the recently introduced state space model and propose the Visual State Space Model (VMamba), which achieves linear complexity without sacrificing global receptive fields. To address the encountered direction-sensitive issue, we introduce the Cross-Scan Module (CSM) to traverse the spatial domain and convert any non-causal visual image into order patch sequences. Extensive experimental results substantiate that VMamba not only demonstrates promising capabilities across various visual perception tasks, but also exhibits more pronounced advantages over established benchmarks as the image resolution increases. Source code has been available at https://github.com/MzeroMiko/VMamba.
PDF392December 15, 2024