I modelli linguistici visivi hanno bisogno dei Vision Transformer? Valutazione dei modelli a spazio di stati come encoder visivi

Abstract

I grandi modelli visione-linguaggio (VLM) utilizzano spesso un backbone visivo congelato, le cui caratteristiche immagine vengono mappate in un grande modello linguistico attraverso un connettore leggero. Sebbene gli encoder basati su transformer siano il backbone visivo standard, ci chiediamo se i backbone visivi basati su modelli a spazio di stati (SSM) possano rappresentare una valida alternativa. Valutiamo sistematicamente i backbone visivi SSM per i VLM in un contesto controllato. In condizioni di inizializzazione ImageNet-1K comparabile, il backbone SSM raggiunge le prestazioni complessive più solide sia nel VQA che nella grounding/localizzazione. Adattiamo ulteriormente sia i backbone SSM che quelli della famiglia ViT con training di detection o segmentazione e scopriamo che la messa a punto per task densi generalmente migliora le prestazioni tra le famiglie; dopo questo adattamento, il backbone SSM rimane competitivo pur operando a una scala di modello sostanzialmente inferiore. Osserviamo inoltre che (i) una maggiore accuratezza su ImageNet o backbone più grandi non si traducono in modo affidabile in prestazioni VLM migliori, e (ii) alcuni backbone visivi sono instabili nella localizzazione. Sulla base di questi risultati, proponiamo strategie di stabilizzazione che migliorano la robustezza per entrambe le famiglie di backbone e evidenziamo i backbone SSM come una valida alternativa agli encoder visivi basati su transformer nei VLM.

English

Large vision--language models (VLMs) often use a frozen vision backbone, whose image features are mapped into a large language model through a lightweight connector. While transformer-based encoders are the standard visual backbone, we ask whether state space model (SSM) vision backbones can be a strong alternative. We systematically evaluate SSM vision backbones for VLMs in a controlled setting. Under matched ImageNet-1K initialization, the SSM backbone achieves the strongest overall performance across both VQA and grounding/localization. We further adapt both SSM and ViT-family backbones with detection or segmentation training and find that dense-task tuning generally improves performance across families; after this adaptation, the SSM backbone remains competitive while operating at a substantially smaller model scale. We further observe that (i) higher ImageNet accuracy or larger backbones do not reliably translate into better VLM performance, and (ii) some visual backbones are unstable in localization. Based on these findings, we propose stabilization strategies that improve robustness for both backbone families and highlight SSM backbones as a strong alternative to transformer-based vision encoders in VLMs.

I modelli linguistici visivi hanno bisogno dei Vision Transformer? Valutazione dei modelli a spazio di stati come encoder visivi

Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Abstract

Support