ChatPaper.aiChatPaper

LocalMamba: Modelo de Espaço de Estados Visual com Varredura Seletiva em Janelas

LocalMamba: Visual State Space Model with Windowed Selective Scan

March 14, 2024
Autores: Tao Huang, Xiaohuan Pei, Shan You, Fei Wang, Chen Qian, Chang Xu
cs.AI

Resumo

Avanços recentes em modelos de espaço de estado, notadamente o Mamba, demonstraram progresso significativo na modelagem de sequências longas para tarefas como compreensão de linguagem. No entanto, sua aplicação em tarefas de visão não superou marcadamente o desempenho das Redes Neurais Convolucionais (CNNs) tradicionais e dos Vision Transformers (ViTs). Este artigo propõe que a chave para aprimorar o Vision Mamba (ViM) reside na otimização das direções de varredura para a modelagem de sequências. As abordagens tradicionais do ViM, que achatam os tokens espaciais, negligenciam a preservação das dependências locais 2D, prolongando assim a distância entre tokens adjacentes. Introduzimos uma nova estratégia de varredura local que divide as imagens em janelas distintas, capturando efetivamente as dependências locais enquanto mantém uma perspectiva global. Além disso, reconhecendo as diferentes preferências por padrões de varredura em várias camadas da rede, propomos um método dinâmico para buscar independentemente as escolhas ótimas de varredura para cada camada, melhorando substancialmente o desempenho. Experimentos extensos em modelos planos e hierárquicos destacam a superioridade de nossa abordagem na captura eficaz de representações de imagens. Por exemplo, nosso modelo supera significativamente o Vim-Ti em 3,1% no ImageNet com os mesmos 1,5G FLOPs. O código está disponível em: https://github.com/hunto/LocalMamba.
English
Recent advancements in state space models, notably Mamba, have demonstrated significant progress in modeling long sequences for tasks like language understanding. Yet, their application in vision tasks has not markedly surpassed the performance of traditional Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs). This paper posits that the key to enhancing Vision Mamba (ViM) lies in optimizing scan directions for sequence modeling. Traditional ViM approaches, which flatten spatial tokens, overlook the preservation of local 2D dependencies, thereby elongating the distance between adjacent tokens. We introduce a novel local scanning strategy that divides images into distinct windows, effectively capturing local dependencies while maintaining a global perspective. Additionally, acknowledging the varying preferences for scan patterns across different network layers, we propose a dynamic method to independently search for the optimal scan choices for each layer, substantially improving performance. Extensive experiments across both plain and hierarchical models underscore our approach's superiority in effectively capturing image representations. For example, our model significantly outperforms Vim-Ti by 3.1% on ImageNet with the same 1.5G FLOPs. Code is available at: https://github.com/hunto/LocalMamba.
PDF81February 8, 2026