VSSD: Vision Mamba met Niet-Causale State Space Dualiteit

Samenvatting

Vision transformers hebben het vakgebied van computer vision aanzienlijk vooruitgebracht, door robuuste modelleermogelijkheden en een globaal receptief veld te bieden. Hun hoge rekenkundige eisen beperken echter hun toepasbaarheid bij het verwerken van lange sequenties. Om dit probleem aan te pakken, hebben State Space Models (SSMs) aan populariteit gewonnen in visuele taken, omdat ze lineaire rekenkundige complexiteit bieden. Onlangs werd State Space Duality (SSD), een verbeterde variant van SSMs, geïntroduceerd in Mamba2 om de modelprestaties en efficiëntie te verbeteren. De inherent causale aard van SSD/SSMs beperkt echter hun toepassingen in niet-causale visuele taken. Om deze beperking aan te pakken, introduceren we het Visual State Space Duality (VSSD) model, dat een niet-causale vorm van SSD heeft. Specifiek stellen we voor om de grootte van de interacties tussen de verborgen toestand en tokens te verwijderen, terwijl hun relatieve gewichten behouden blijven, wat de afhankelijkheid van de bijdrage van tokens op vorige tokens vermindert. Samen met de betrokkenheid van multi-scan strategieën laten we zien dat de scanresultaten geïntegreerd kunnen worden om niet-causaliteit te bereiken, wat niet alleen de prestaties van SSD in visuele taken verbetert, maar ook de efficiëntie ervan verhoogt. We voeren uitgebreide experimenten uit op verschillende benchmarks, waaronder beeldclassificatie, detectie en segmentatie, waarbij VSSD de bestaande state-of-the-art SSM-gebaseerde modellen overtreft. Code en gewichten zijn beschikbaar op https://github.com/YuHengsss/VSSD.

English

Vision transformers have significantly advanced the field of computer vision, offering robust modeling capabilities and global receptive field. However, their high computational demands limit their applicability in processing long sequences. To tackle this issue, State Space Models (SSMs) have gained prominence in vision tasks as they offer linear computational complexity. Recently, State Space Duality (SSD), an improved variant of SSMs, was introduced in Mamba2 to enhance model performance and efficiency. However, the inherent causal nature of SSD/SSMs restricts their applications in non-causal vision tasks. To address this limitation, we introduce Visual State Space Duality (VSSD) model, which has a non-causal format of SSD. Specifically, we propose to discard the magnitude of interactions between the hidden state and tokens while preserving their relative weights, which relieves the dependencies of token contribution on previous tokens. Together with the involvement of multi-scan strategies, we show that the scanning results can be integrated to achieve non-causality, which not only improves the performance of SSD in vision tasks but also enhances its efficiency. We conduct extensive experiments on various benchmarks including image classification, detection, and segmentation, where VSSD surpasses existing state-of-the-art SSM-based models. Code and weights are available at https://github.com/YuHengsss/VSSD.

VSSD: Vision Mamba met Niet-Causale State Space Dualiteit

VSSD: Vision Mamba with Non-Casual State Space Duality

Samenvatting

Support