Les modèles de traitement visuel et linguistique ont-ils besoin de Vision Transformers ? Évaluation des modèles à espace d'états comme encodeurs visuels
Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders
March 19, 2026
Auteurs: Shang-Jui Ray Kuo, Paola Cascante-Bonilla
cs.AI
Résumé
Les grands modèles vision-langage (VLM) utilisent souvent un backbone visuel figé, dont les caractéristiques d'image sont projetées dans un grand modèle de langage via un connecteur léger. Bien que les encodeurs basés sur des transformers constituent le backbone visuel standard, nous nous demandons si les backbones visuels basés sur des modèles à espace d'état (SSM) peuvent constituer une alternative solide. Nous évaluons systématiquement les backbones visuels SSM pour les VLM dans un cadre contrôlé. Avec une initialisation équivalente sur ImageNet-1K, le backbone SSM atteint les performances globales les plus fortes à la fois en VQA et en localisation/ancrage. Nous adaptons ensuite les backbones SSM et de la famille ViT avec un entraînement à la détection ou à la segmentation, et constatons que le réglage pour les tâches denses améliore généralement les performances pour les deux familles ; après cette adaptation, le backbone SSM reste compétitif tout en opérant à une échelle de modèle nettement plus réduite. Nous observons en outre que (i) une précision ImageNet plus élevée ou des backbones plus grands ne se traduisent pas de manière fiable par de meilleures performances des VLM, et (ii) certains backbones visuels sont instables en localisation. Sur la base de ces résultats, nous proposons des stratégies de stabilisation qui améliorent la robustesse pour les deux familles de backbones et mettons en évidence les backbones SSM comme une alternative solide aux encodeurs visuels basés sur des transformers dans les VLM.
English
Large vision--language models (VLMs) often use a frozen vision backbone, whose image features are mapped into a large language model through a lightweight connector. While transformer-based encoders are the standard visual backbone, we ask whether state space model (SSM) vision backbones can be a strong alternative. We systematically evaluate SSM vision backbones for VLMs in a controlled setting. Under matched ImageNet-1K initialization, the SSM backbone achieves the strongest overall performance across both VQA and grounding/localization. We further adapt both SSM and ViT-family backbones with detection or segmentation training and find that dense-task tuning generally improves performance across families; after this adaptation, the SSM backbone remains competitive while operating at a substantially smaller model scale. We further observe that (i) higher ImageNet accuracy or larger backbones do not reliably translate into better VLM performance, and (ii) some visual backbones are unstable in localization. Based on these findings, we propose stabilization strategies that improve robustness for both backbone families and highlight SSM backbones as a strong alternative to transformer-based vision encoders in VLMs.