I VLMs Hanno Bisogno di Parole: I Modelli Linguistico-Visivi Trascurano i Dettagli Visivi a Favore di Ancore Semantiche
VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors
April 2, 2026
Autori: Haz Sameen Shahgir, Xiaofu Chen, Yu Fu, Erfan Shayegani, Nael Abu-Ghazaleh, Yova Kementchedjhieva, Yue Dong
cs.AI
Abstract
I modelli linguistici visivi (VLM) raggiungono prestazioni impressionanti in un'ampia gamma di attività multimodali. Tuttavia, in alcuni compiti che richiedono una percezione visiva fine, spesso falliscono anche quando le informazioni necessarie sono presenti nelle loro rappresentazioni interne. In questo lavoro, dimostriamo che questo divario deriva dalla loro ristretta pipeline di addestramento, che si concentra sul trasferimento delle informazioni visive allo spazio testuale. Di conseguenza, i VLM possono ragionare solo su entità visive che possono essere mappate a concetti noti nello spazio linguistico, lasciando i compiti focalizzati sulla visione, come la corrispondenza visiva e il ragionamento su entità visive nuove, scarsamente supportati. Come risultato, i VLM sono fortemente limitati in diverse importanti capacità multimodali perché si affidano a fragili descrizioni testuali allucinate di entità visive che non possono mappare su rappresentazioni testuali. Verifichiamo questo comportamento attraverso compiti di corrispondenza visiva, in cui i VLM devono rilevare entità corrispondenti tra due immagini. Testando su compiti di corrispondenza semantica, di forma e facciale, scopriamo che i VLM performano molto meglio quando le entità rilevanti sono denominabili linguisticamente rispetto a quando non lo sono. Meccanicamente, le nostre analisi Logit Lens confermano che i VLM assegnano esplicitamente etichette semantiche alle entità denominabili e producono token corrispondenti più unici rispetto alle entità non denominabili. Inoltre, dimostriamo che insegnare nomi completamente arbitrari per entità sconosciute migliora le prestazioni, ma un fine-tuning specifico per il compito produce una generalizzazione ancora più forte senza fare affidamento su preconcetti linguistici. I nostri risultati suggeriscono che gli attuali fallimenti dei VLM sui compiti visivi riflettono scorciatoie apprese durante l'addestramento, piuttosto che una limitazione fondamentale delle architetture multimodali.
English
Vision Language Models (VLMs) achieve impressive performance across a wide range of multimodal tasks. However, on some tasks that demand fine-grained visual perception, they often fail even when the required information is present in their internal representations. In this work, we demonstrate that this gap arises from their narrow training pipeline which focuses on moving visual information to the textual space. Consequently, VLMs can only reason about visual entities that can be mapped to known concepts in the language space, leaving vision-focused tasks such as visual correspondence and reasoning about novel visual entities poorly supported. As a result, VLMs are severely limited in several important multimodal capabilities because they rely on brittle, hallucinated textual descriptions of visual entities that they cannot map to textual representations. We verify this behavior through visual correspondence tasks, in which VLMs must detect matching entities between two images. Testing across semantic, shape, and face correspondence tasks, we find that VLMs perform much better when the relevant entities are nameable in language than when they are unnameable. Mechanistically, our Logit Lens analyses confirm that VLMs explicitly assign semantic labels to nameable entities and surface more unique corresponding tokens compared to unnameable entities. Furthermore, we show that teaching completely arbitrary names for unknown entities improves performance, yet task-specific finetuning yields even stronger generalization without relying on language priors. Our findings suggest that current VLM failures on visual tasks reflect learned shortcuts from their training, rather than a fundamental limitation of multimodal architectures.