비전-언어 모델에 비전 트랜스포머가 필요한가? 비전 인코더로서의 상태 공간 모델 평가
Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders
March 19, 2026
저자: Shang-Jui Ray Kuo, Paola Cascante-Bonilla
cs.AI
초록
대규모 시각-언어 모델(VLM)은 종종 고정된 시각 백본을 사용하며, 해당 이미지 특징은 경량 연결자를 통해 대규모 언어 모델에 매핑됩니다. 트랜스포머 기반 인코더가 표준 시각 백본이지만, 본 연구에서는 상태 공간 모델(SSM) 시각 백본이 강력한 대안이 될 수 있는지 질문합니다. 우리는 통제된 환경에서 VLM용 SSM 시각 백본을 체계적으로 평가합니다. 일치하는 ImageNet-1K 초기화 조건에서 SSM 백본은 VQA와 Grounding/지역화 모두에서 가장 강력한 전반적 성능을 달성했습니다. 우리는 SSM 및 ViT 계열 백본을 검출 또는 분할 학습으로 추가 적응시킨 결과, 밀집 작업 미세 조정이 일반적으로 두 계열 모두에서 성능을 향상시키는 것을 확인했습니다. 이러한 적응 후에도 SSM 백본은 상당히 작은 모델 규모로 운영되면서도 경쟁력을 유지했습니다. 또한 우리는 (i) 더 높은 ImageNet 정확도나 더 큰 백본이 더 나은 VLM 성능으로 안정적으로 이어지지 않으며, (ii) 일부 시각 백본이 지역화에서 불안정하다는 점을 관찰했습니다. 이러한 발견을 바탕으로, 우리는 두 백본 계열의 견고성을 향상시키는 안정화 전략을 제안하고, VLM에서 트랜스포머 기반 시각 인코더에 대한 강력한 대안으로서 SSM 백본을 강조합니다.
English
Large vision--language models (VLMs) often use a frozen vision backbone, whose image features are mapped into a large language model through a lightweight connector. While transformer-based encoders are the standard visual backbone, we ask whether state space model (SSM) vision backbones can be a strong alternative. We systematically evaluate SSM vision backbones for VLMs in a controlled setting. Under matched ImageNet-1K initialization, the SSM backbone achieves the strongest overall performance across both VQA and grounding/localization. We further adapt both SSM and ViT-family backbones with detection or segmentation training and find that dense-task tuning generally improves performance across families; after this adaptation, the SSM backbone remains competitive while operating at a substantially smaller model scale. We further observe that (i) higher ImageNet accuracy or larger backbones do not reliably translate into better VLM performance, and (ii) some visual backbones are unstable in localization. Based on these findings, we propose stabilization strategies that improve robustness for both backbone families and highlight SSM backbones as a strong alternative to transformer-based vision encoders in VLMs.