비전 맘바: 양방향 상태 공간 모델을 활용한 효율적인 시각적 표현 학습
Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model
January 17, 2024
저자: Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu, Xinggang Wang
cs.AI
초록
최근 하드웨어 인식 설계를 갖춘 상태 공간 모델(SSMs), 즉 Mamba가 장기 시퀀스 모델링에서 큰 잠재력을 보여주고 있다. SSMs만을 기반으로 효율적이고 범용적인 비전 백본을 구축하는 것은 매력적인 방향이다. 그러나 시각 데이터의 위치 민감성과 시각 이해를 위한 전역 컨텍스트 요구 사항으로 인해 SSMs가 시각 데이터를 표현하는 것은 어려운 과제이다. 본 논문에서는 시각 표현 학습이 자기 주의(self-attention)에 의존할 필요가 없음을 보이고, 양방향 Mamba 블록(Vim)을 사용한 새로운 범용 비전 백본을 제안한다. 이는 이미지 시퀀스에 위치 임베딩을 표시하고 양방향 상태 공간 모델을 통해 시각 표현을 압축한다. ImageNet 분류, COCO 객체 탐지, ADE20k 의미론적 분할 작업에서 Vim은 DeiT와 같은 잘 알려진 비전 트랜스포머보다 더 높은 성능을 달성하면서도 계산 및 메모리 효율성을 크게 개선했다. 예를 들어, Vim은 1248×1248 해상도의 이미지에서 배치 추론을 수행하여 특징을 추출할 때 DeiT보다 2.8배 빠르고 GPU 메모리를 86.8% 절약한다. 이러한 결과는 Vim이 고해상도 이미지에 대한 트랜스포머 스타일 이해를 수행하는 데 있어 계산 및 메모리 제약을 극복할 수 있으며, 차세대 비전 기반 모델의 백본이 될 수 있는 큰 잠재력을 가지고 있음을 보여준다. 코드는 https://github.com/hustvl/Vim에서 확인할 수 있다.
English
Recently the state space models (SSMs) with efficient hardware-aware designs,
i.e., Mamba, have shown great potential for long sequence modeling. Building
efficient and generic vision backbones purely upon SSMs is an appealing
direction. However, representing visual data is challenging for SSMs due to the
position-sensitivity of visual data and the requirement of global context for
visual understanding. In this paper, we show that the reliance of visual
representation learning on self-attention is not necessary and propose a new
generic vision backbone with bidirectional Mamba blocks (Vim), which marks the
image sequences with position embeddings and compresses the visual
representation with bidirectional state space models. On ImageNet
classification, COCO object detection, and ADE20k semantic segmentation tasks,
Vim achieves higher performance compared to well-established vision
transformers like DeiT, while also demonstrating significantly improved
computation & memory efficiency. For example, Vim is 2.8times faster than
DeiT and saves 86.8% GPU memory when performing batch inference to extract
features on images with a resolution of 1248times1248. The results
demonstrate that Vim is capable of overcoming the computation & memory
constraints on performing Transformer-style understanding for high-resolution
images and it has great potential to become the next-generation backbone for
vision foundation models. Code is available at https://github.com/hustvl/Vim.