VLMs Hebben Woorden Nodig: Vision Language Models Negeren Visueel Detail Ten Gunste van Semantische Ankers

Samenvatting

Vision Language Models (VLMs) behalen indrukwekkende prestaties op een breed scala aan multimodale taken. Op sommige taken die een fijnmazige visuele waarneming vereisen, falen ze echter vaak, zelfs wanneer de benodigde informatie aanwezig is in hun interne representaties. In dit werk tonen we aan dat deze kloof ontstaat door hun smalle trainingspijplijn, die zich richt op het verplaatsen van visuele informatie naar de tekstuele ruimte. Hierdoor kunnen VLMs alleen redeneren over visuele entiteiten die kunnen worden gemapt naar bekende concepten in de taalkundige ruimte, waardoor visueel gerichte taken zoals visuele correspondentie en redeneren over nieuwe visuele entiteiten slecht worden ondersteund. Als gevolg daarvan zijn VLMs ernstig beperkt in verschillende belangrijke multimodale capaciteiten, omdat ze vertrouwen op broze, gehallucineerde tekstuele beschrijvingen van visuele entiteiten die ze niet kunnen mappen naar tekstuele representaties. We verifiëren dit gedrag via taken voor visuele correspondentie, waarbij VLMs overeenkomende entiteiten tussen twee afbeeldingen moeten detecteren. Testen over semantische, vorm- en gezichtscorrespondentietaken tonen aan dat VLMs veel beter presteren wanneer de relevante entiteiten een naam hebben in taal dan wanneer ze geen naam hebben. Mechanistisch bevestigen onze Logit Lens-analyses dat VLMs expliciet semantische labels toekennen aan naamloze entiteiten en meer unieke corresponderende tokens produceren in vergelijking met niet-naamloze entiteiten. Verder tonen we aan dat het aanleren van volledig willekeurige namen voor onbekende entiteiten de prestaties verbetert, maar dat taakspecifieke finetuning een nog sterkere generalisatie oplevert zonder afhankelijk te zijn van taalkundige prior kennis. Onze bevindingen suggereren dat de huidige mislukkingen van VLMs op visuele taken geleerde shortcuts uit hun training weerspiegelen, in plaats van een fundamentele beperking van multimodale architecturen.

English

Vision Language Models (VLMs) achieve impressive performance across a wide range of multimodal tasks. However, on some tasks that demand fine-grained visual perception, they often fail even when the required information is present in their internal representations. In this work, we demonstrate that this gap arises from their narrow training pipeline which focuses on moving visual information to the textual space. Consequently, VLMs can only reason about visual entities that can be mapped to known concepts in the language space, leaving vision-focused tasks such as visual correspondence and reasoning about novel visual entities poorly supported. As a result, VLMs are severely limited in several important multimodal capabilities because they rely on brittle, hallucinated textual descriptions of visual entities that they cannot map to textual representations. We verify this behavior through visual correspondence tasks, in which VLMs must detect matching entities between two images. Testing across semantic, shape, and face correspondence tasks, we find that VLMs perform much better when the relevant entities are nameable in language than when they are unnameable. Mechanistically, our Logit Lens analyses confirm that VLMs explicitly assign semantic labels to nameable entities and surface more unique corresponding tokens compared to unnameable entities. Furthermore, we show that teaching completely arbitrary names for unknown entities improves performance, yet task-specific finetuning yields even stronger generalization without relying on language priors. Our findings suggest that current VLM failures on visual tasks reflect learned shortcuts from their training, rather than a fundamental limitation of multimodal architectures.

VLMs Hebben Woorden Nodig: Vision Language Models Negeren Visueel Detail Ten Gunste van Semantische Ankers

VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors

Samenvatting

Support