ChatPaper.aiChatPaper

Hebben VLMs Visie Transformers Nodig? Evaluatie van State Space Models als Visuele Encoders

Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

March 19, 2026
Auteurs: Shang-Jui Ray Kuo, Paola Cascante-Bonilla
cs.AI

Samenvatting

Grootschalige visueel-taalmodelen (VLM's) gebruiken vaak een bevroren visuele backbone, waarvan de beeldkenmerken via een lichtgewicht connector in een groot taalmodel worden gemapt. Hoewel op transformers gebaseerde encoders de standaard visuele backbone vormen, onderzoeken wij of visuele backbones op basis van state space modellen (SSM) een sterke alternatief kunnen zijn. Wij evalueren SSM-visuele backbones voor VLM's systematisch in een gecontroleerde setting. Onder gelijke ImageNet-1K initialisatie behaalt de SSM-backbone de sterkste algehele prestaties op zowel VQA als grounding/localisatie. Wij passen zowel SSM- als ViT-familie backbones verder aan met detectie- of segmentatietraining en constateren dat tuning voor dense taken over het algemeen de prestaties binnen beide families verbetert; na deze aanpassing blijft de SSM-backbone concurrerend, terwijl deze werkt op een aanzienlijk kleinere modelschaal. Wij observeren verder dat (i) hogere ImageNet-nauwkeurigheid of grotere backbones niet betrouwbaar vertalen naar betere VLM-prestaties, en (ii) sommige visuele backbones instabiel zijn bij lokalisatie. Gebaseerd op deze bevindingen stellen wij stabilisatiestrategieën voor die de robuustheid voor beide backbone-families verbeteren en benadrukken SSM-backbones als een sterk alternatief voor op transformers gebaseerde visuele encoders in VLM's.
English
Large vision--language models (VLMs) often use a frozen vision backbone, whose image features are mapped into a large language model through a lightweight connector. While transformer-based encoders are the standard visual backbone, we ask whether state space model (SSM) vision backbones can be a strong alternative. We systematically evaluate SSM vision backbones for VLMs in a controlled setting. Under matched ImageNet-1K initialization, the SSM backbone achieves the strongest overall performance across both VQA and grounding/localization. We further adapt both SSM and ViT-family backbones with detection or segmentation training and find that dense-task tuning generally improves performance across families; after this adaptation, the SSM backbone remains competitive while operating at a substantially smaller model scale. We further observe that (i) higher ImageNet accuracy or larger backbones do not reliably translate into better VLM performance, and (ii) some visual backbones are unstable in localization. Based on these findings, we propose stabilization strategies that improve robustness for both backbone families and highlight SSM backbones as a strong alternative to transformer-based vision encoders in VLMs.
PDF32March 24, 2026