ChatPaper.aiChatPaper

LocalMamba: Визуальная модель пространства состояний с оконным выборочным сканированием

LocalMamba: Visual State Space Model with Windowed Selective Scan

March 14, 2024
Авторы: Tao Huang, Xiaohuan Pei, Shan You, Fei Wang, Chen Qian, Chang Xu
cs.AI

Аннотация

Недавние достижения в моделях пространства состояний, в частности Mamba, продемонстрировали значительный прогресс в моделировании длинных последовательностей для задач, таких как понимание языка. Тем не менее, их применение в задачах зрения не значительно превзошло производительность традиционных сверточных нейронных сетей (CNN) и трансформеров зрения (ViTs). В данной статье утверждается, что ключ к улучшению Vision Mamba (ViM) заключается в оптимизации направлений сканирования для моделирования последовательностей. Традиционные подходы ViM, которые выравнивают пространственные токены, не учитывают сохранение локальных 2D зависимостей, увеличивая расстояние между смежными токенами. Мы предлагаем новую стратегию локального сканирования, которая разделяет изображения на отдельные окна, эффективно захватывая локальные зависимости, сохраняя при этом глобальную перспективу. Кроме того, учитывая различные предпочтения к схемам сканирования на разных слоях сети, мы предлагаем динамический метод независимого поиска оптимальных выборов сканирования для каждого слоя, что значительно улучшает производительность. Обширные эксперименты как с простыми, так и с иерархическими моделями подчеркивают превосходство нашего подхода в эффективном захвате изображений. Например, наша модель значительно превосходит Vim-Ti на 3,1% на ImageNet при том же объеме операций с плавающей запятой (FLOPs) в 1,5G. Код доступен по ссылке: https://github.com/hunto/LocalMamba.
English
Recent advancements in state space models, notably Mamba, have demonstrated significant progress in modeling long sequences for tasks like language understanding. Yet, their application in vision tasks has not markedly surpassed the performance of traditional Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs). This paper posits that the key to enhancing Vision Mamba (ViM) lies in optimizing scan directions for sequence modeling. Traditional ViM approaches, which flatten spatial tokens, overlook the preservation of local 2D dependencies, thereby elongating the distance between adjacent tokens. We introduce a novel local scanning strategy that divides images into distinct windows, effectively capturing local dependencies while maintaining a global perspective. Additionally, acknowledging the varying preferences for scan patterns across different network layers, we propose a dynamic method to independently search for the optimal scan choices for each layer, substantially improving performance. Extensive experiments across both plain and hierarchical models underscore our approach's superiority in effectively capturing image representations. For example, our model significantly outperforms Vim-Ti by 3.1% on ImageNet with the same 1.5G FLOPs. Code is available at: https://github.com/hunto/LocalMamba.

Summary

AI-Generated Summary

PDF91December 15, 2024