Нужны ли визуально-языковым моделям трансформеры? Оценка моделей пространства состояний в качестве визуальных энкодеров
Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders
March 19, 2026
Авторы: Shang-Jui Ray Kuo, Paola Cascante-Bonilla
cs.AI
Аннотация
Крупные визуально-языковые модели (VLM) часто используют замороженный визуальный модуль, чьи признаки изображения проецируются в большую языковую модель через легковесный коннектор. Хотя трансформерные энкодеры являются стандартным визуальным компонентом, мы исследуем, могут ли визуальные модули на основе моделей пространства состояний (SSM) стать достойной альтернативой. Мы систематически оцениваем SSM-визуальные модули для VLM в контролируемых условиях. При сопоставимой инициализации на ImageNet-1K SSM-модуль демонстрирует наилучшую общую производительность как в задачах VQA, так и в задачах локализации и привязки к объектам. Мы дополнительно адаптируем SSM- и ViT-модули с помощью обучения на задачах детекции и сегментации и обнаруживаем, что дообучение на плотных задачах в целом улучшает производительность для обоих семейств; после такой адаптации SSM-модуль сохраняет конкурентоспособность при существенно меньшем масштабе модели. Мы также наблюдаем, что (i) более высокая точность на ImageNet или бóльшие размеры модулей не гарантируют лучшую производительность VLM, и (ii) некоторые визуальные модули демонстрируют нестабильность в задачах локализации. На основе этих выводов мы предлагаем стратегии стабилизации, которые повышают надежность для обоих семейств модулей, и подчеркиваем SSM-модули как перспективную альтернативу трансформерным визуальным энкодерам в VLM.
English
Large vision--language models (VLMs) often use a frozen vision backbone, whose image features are mapped into a large language model through a lightweight connector. While transformer-based encoders are the standard visual backbone, we ask whether state space model (SSM) vision backbones can be a strong alternative. We systematically evaluate SSM vision backbones for VLMs in a controlled setting. Under matched ImageNet-1K initialization, the SSM backbone achieves the strongest overall performance across both VQA and grounding/localization. We further adapt both SSM and ViT-family backbones with detection or segmentation training and find that dense-task tuning generally improves performance across families; after this adaptation, the SSM backbone remains competitive while operating at a substantially smaller model scale. We further observe that (i) higher ImageNet accuracy or larger backbones do not reliably translate into better VLM performance, and (ii) some visual backbones are unstable in localization. Based on these findings, we propose stabilization strategies that improve robustness for both backbone families and highlight SSM backbones as a strong alternative to transformer-based vision encoders in VLMs.