LocalMamba: Visueel State Space Model met Venstergebaseerde Selectieve Scan

Samenvatting

Recente vooruitgang in state space-modellen, met name Mamba, heeft aanzienlijke vooruitgang getoond in het modelleren van lange sequenties voor taken zoals taalbegrip. Toch heeft hun toepassing in visuele taken de prestaties van traditionele Convolutional Neural Networks (CNN's) en Vision Transformers (ViT's) niet duidelijk overtroffen. Dit artikel stelt dat de sleutel tot het verbeteren van Vision Mamba (ViM) ligt in het optimaliseren van scanrichtingen voor sequentiemodellering. Traditionele ViM-benaderingen, die ruimtelijke tokens afvlakken, negeren het behoud van lokale 2D-afhankelijkheden, waardoor de afstand tussen aangrenzende tokens wordt verlengd. We introduceren een nieuwe lokale scanstrategie die afbeeldingen verdeelt in afzonderlijke vensters, waardoor lokale afhankelijkheden effectief worden vastgelegd terwijl een globaal perspectief behouden blijft. Daarnaast, erkennend dat de voorkeuren voor scanpatronen variëren tussen verschillende netwerklagen, stellen we een dynamische methode voor om onafhankelijk naar de optimale scankeuzes voor elke laag te zoeken, wat de prestaties aanzienlijk verbetert. Uitgebreide experimenten in zowel eenvoudige als hiërarchische modellen onderstrepen de superioriteit van onze aanpak in het effectief vastleggen van beeldrepresentaties. Ons model overtreft bijvoorbeeld Vim-Ti significant met 3,1% op ImageNet bij dezelfde 1,5G FLOPs. Code is beschikbaar op: https://github.com/hunto/LocalMamba.

English

Recent advancements in state space models, notably Mamba, have demonstrated significant progress in modeling long sequences for tasks like language understanding. Yet, their application in vision tasks has not markedly surpassed the performance of traditional Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs). This paper posits that the key to enhancing Vision Mamba (ViM) lies in optimizing scan directions for sequence modeling. Traditional ViM approaches, which flatten spatial tokens, overlook the preservation of local 2D dependencies, thereby elongating the distance between adjacent tokens. We introduce a novel local scanning strategy that divides images into distinct windows, effectively capturing local dependencies while maintaining a global perspective. Additionally, acknowledging the varying preferences for scan patterns across different network layers, we propose a dynamic method to independently search for the optimal scan choices for each layer, substantially improving performance. Extensive experiments across both plain and hierarchical models underscore our approach's superiority in effectively capturing image representations. For example, our model significantly outperforms Vim-Ti by 3.1% on ImageNet with the same 1.5G FLOPs. Code is available at: https://github.com/hunto/LocalMamba.

LocalMamba: Visueel State Space Model met Venstergebaseerde Selectieve Scan

LocalMamba: Visual State Space Model with Windowed Selective Scan

Samenvatting

Support