Os VLMs Precisam de Palavras: Modelos de Linguagem Visual Ignoram Detalhes Visuais em Favor de Âncoras Semânticas

Resumo

Os Modelos de Linguagem de Visão (VLMs) alcançam desempenho impressionante em uma ampla gama de tarefas multimodais. No entanto, em algumas tarefas que exigem percepção visual refinada, eles frequentemente falham mesmo quando a informação necessária está presente em suas representações internas. Neste trabalho, demonstramos que essa lacuna surge de seu pipeline de treinamento restrito, que se concentra em mover informações visuais para o espaço textual. Consequentemente, os VLMs só podem raciocinar sobre entidades visuais que podem ser mapeadas para conceitos conhecidos no espaço linguístico, deixando tarefas focadas em visão, como correspondência visual e raciocínio sobre entidades visuais novas, mal suportadas. Como resultado, os VLMs são severamente limitados em várias capacidades multimodais importantes porque dependem de descrições textuais frágeis e alucinadas de entidades visuais que não conseguem mapear para representações textuais. Verificamos esse comportamento por meio de tarefas de correspondência visual, nas quais os VLMs devem detectar entidades correspondentes entre duas imagens. Testando em tarefas de correspondência semântica, de forma e facial, descobrimos que os VLMs performam muito melhor quando as entidades relevantes são nomináveis na linguagem do que quando não são nomináveis. Mecanicamente, nossas análises de Lente de Logits confirmam que os VLMs atribuem explicitamente rótulos semânticos a entidades nomináveis e produzem tokens correspondentes mais únicos em comparação com entidades não nomináveis. Além disso, mostramos que ensinar nomes completamente arbitrários para entidades desconhecidas melhora o desempenho, mas o ajuste fino específico da tarefa produz generalização ainda mais forte sem depender de prévias linguísticas. Nossas descobertas sugerem que as falhas atuais dos VLMs em tarefas visuais refletem atalhos aprendidos em seu treinamento, e não uma limitação fundamental das arquiteturas multimodais.

English

Vision Language Models (VLMs) achieve impressive performance across a wide range of multimodal tasks. However, on some tasks that demand fine-grained visual perception, they often fail even when the required information is present in their internal representations. In this work, we demonstrate that this gap arises from their narrow training pipeline which focuses on moving visual information to the textual space. Consequently, VLMs can only reason about visual entities that can be mapped to known concepts in the language space, leaving vision-focused tasks such as visual correspondence and reasoning about novel visual entities poorly supported. As a result, VLMs are severely limited in several important multimodal capabilities because they rely on brittle, hallucinated textual descriptions of visual entities that they cannot map to textual representations. We verify this behavior through visual correspondence tasks, in which VLMs must detect matching entities between two images. Testing across semantic, shape, and face correspondence tasks, we find that VLMs perform much better when the relevant entities are nameable in language than when they are unnameable. Mechanistically, our Logit Lens analyses confirm that VLMs explicitly assign semantic labels to nameable entities and surface more unique corresponding tokens compared to unnameable entities. Furthermore, we show that teaching completely arbitrary names for unknown entities improves performance, yet task-specific finetuning yields even stronger generalization without relying on language priors. Our findings suggest that current VLM failures on visual tasks reflect learned shortcuts from their training, rather than a fundamental limitation of multimodal architectures.

Os VLMs Precisam de Palavras: Modelos de Linguagem Visual Ignoram Detalhes Visuais em Favor de Âncoras Semânticas

VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors

Resumo

Support