¿Necesitan los VLMs Transformers de Visión? Evaluación de Modelos de Espacio de Estados como Codificadores Visuales

Resumen

Los grandes modelos de visión y lenguaje (VLM) suelen utilizar un backbone visual congelado, cuyas características de imagen se mapean en un gran modelo de lenguaje mediante un conector ligero. Si bien los codificadores basados en transformadores son el estándar como backbone visual, nos preguntamos si los backbones visuales basados en modelos de espacio de estados (SSM) pueden ser una alternativa sólida. Evaluamos sistemáticamente los backbones visuales SSM para VLM en un entorno controlado. Bajo una inicialización equiparada en ImageNet-1K, el backbone SSM logra el rendimiento global más sólido tanto en VQA como en grounding/localización. Además, adaptamos tanto los backbones SSM como los de la familia ViT con entrenamiento para detección o segmentación y encontramos que el ajuste para tareas densas generalmente mejora el rendimiento en ambas familias; después de esta adaptación, el backbone SSM sigue siendo competitivo mientras opera a una escala de modelo sustancialmente menor. También observamos que (i) una mayor precisión en ImageNet o backbones más grandes no se traducen de manera confiable en un mejor rendimiento del VLM, y (ii) algunos backbones visuales son inestables en tareas de localización. Con base en estos hallazgos, proponemos estrategias de estabilización que mejoran la robustez para ambas familias de backbones y destacamos a los backbones SSM como una alternativa sólida a los codificadores visuales basados en transformadores en los VLM.

English

Large vision--language models (VLMs) often use a frozen vision backbone, whose image features are mapped into a large language model through a lightweight connector. While transformer-based encoders are the standard visual backbone, we ask whether state space model (SSM) vision backbones can be a strong alternative. We systematically evaluate SSM vision backbones for VLMs in a controlled setting. Under matched ImageNet-1K initialization, the SSM backbone achieves the strongest overall performance across both VQA and grounding/localization. We further adapt both SSM and ViT-family backbones with detection or segmentation training and find that dense-task tuning generally improves performance across families; after this adaptation, the SSM backbone remains competitive while operating at a substantially smaller model scale. We further observe that (i) higher ImageNet accuracy or larger backbones do not reliably translate into better VLM performance, and (ii) some visual backbones are unstable in localization. Based on these findings, we propose stabilization strategies that improve robustness for both backbone families and highlight SSM backbones as a strong alternative to transformer-based vision encoders in VLMs.

¿Necesitan los VLMs Transformers de Visión? Evaluación de Modelos de Espacio de Estados como Codificadores Visuales

Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Resumen

Support