Os VLMs Precisam de Vision Transformers? Avaliando State Space Models como Codificadores Visuais

Resumo

Os grandes modelos visuais-linguísticos (VLMs) frequentemente utilizam um backbone visual congelado, cujas características de imagem são mapeadas em um grande modelo de linguagem através de um conector leve. Embora os codificadores baseados em transformer sejam o backbone visual padrão, questionamos se os backbones visuais baseados em modelos de espaço de estados (SSMs) podem ser uma alternativa robusta. Avaliamos sistematicamente backbones visuais SSM para VLMs em um ambiente controlado. Sob inicialização correspondente do ImageNet-1K, o backbone SSM alcança o desempenho geral mais forte tanto em VQA quanto em fundamentação/localização. Adaptamos ainda mais backbones SSM e da família ViT com treinamento de detecção ou segmentação e descobrimos que o ajuste fino para tarefas densas geralmente melhora o desempenho entre as famílias; após essa adaptação, o backbone SSM permanece competitivo enquanto opera em uma escala de modelo substancialmente menor. Observamos ainda que (i) maior precisão no ImageNet ou backbones maiores não se traduzem de forma confiável em melhor desempenho de VLM, e (ii) alguns backbones visuais são instáveis em localização. Com base nessas descobertas, propomos estratégias de estabilização que melhoram a robustez para ambas as famílias de backbones e destacamos os backbones SSM como uma alternativa sólida aos codificadores visuais baseados em transformer em VLMs.

English

Large vision--language models (VLMs) often use a frozen vision backbone, whose image features are mapped into a large language model through a lightweight connector. While transformer-based encoders are the standard visual backbone, we ask whether state space model (SSM) vision backbones can be a strong alternative. We systematically evaluate SSM vision backbones for VLMs in a controlled setting. Under matched ImageNet-1K initialization, the SSM backbone achieves the strongest overall performance across both VQA and grounding/localization. We further adapt both SSM and ViT-family backbones with detection or segmentation training and find that dense-task tuning generally improves performance across families; after this adaptation, the SSM backbone remains competitive while operating at a substantially smaller model scale. We further observe that (i) higher ImageNet accuracy or larger backbones do not reliably translate into better VLM performance, and (ii) some visual backbones are unstable in localization. Based on these findings, we propose stabilization strategies that improve robustness for both backbone families and highlight SSM backbones as a strong alternative to transformer-based vision encoders in VLMs.

Os VLMs Precisam de Vision Transformers? Avaliando State Space Models como Codificadores Visuais

Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Resumo

Support