VLMs brauchen Wörter: Vision-Language-Modelle ignorieren visuelle Details zugunsten semantischer Anker

Zusammenfassung

Visuelle Sprachmodelle (VLMs) erzielen beeindruckende Leistungen in einer Vielzahl multimodaler Aufgaben. Bei einigen Aufgaben, die eine feinabgestufte visuelle Wahrnehmung erfordern, versagen sie jedoch häufig, selbst wenn die benötigten Informationen in ihren internen Repräsentationen vorhanden sind. In dieser Arbeit zeigen wir, dass diese Lücke aus ihrer engen Trainingspipeline resultiert, die darauf fokussiert ist, visuelle Informationen in den textuellen Raum zu überführen. Folglich können VLMs nur über visuelle Entitäten reasoning betreiben, die auf bekannte Konzepte im Sprachraum abgebildet werden können, wodurch visuell fokussierte Aufgaben wie visuelle Korrespondenz und das Schlussfolgern über neuartige visuelle Entitäten nur unzureichend unterstützt werden. Dadurch sind VLMs in mehreren wichtigen multimodalen Fähigkeiten stark eingeschränkt, da sie auf brüchige, halluzinierte textuelle Beschreibungen visueller Entitäten angewiesen sind, die sie nicht auf textuelle Repräsentationen abbilden können. Wir verifizieren dieses Verhalten durch Aufgaben zur visuellen Korrespondenz, bei denen VLMs übereinstimmende Entitäten zwischen zwei Bildern erkennen müssen. Tests über semantische, Form- und Gesichtskorrespondenzaufgaben hinweg zeigen, dass VLMs deutlich besser abschneiden, wenn die relevanten Entitäten sprachlich benennbar sind, als wenn sie nicht benennbar sind. Mechanistisch bestätigen unsere Logit-Lens-Analysen, dass VLMs benennbaren Entitäten explizit semantische Labels zuweisen und im Vergleich zu nicht benennbaren Entitäten einzigartigere korrespondierende Tokens hervorbringen. Darüber hinaus zeigen wir, dass das Beibringen völlig beliebiger Namen für unbekannte Entitäten die Leistung verbessert, aufgabenspezifisches Finetuning jedoch eine noch stärkere Generalisierung ohne Abhängigkeit von Sprach-Priors erzielt. Unsere Ergebnisse deuten darauf hin, dass die aktuellen VLM-Fehler bei visuellen Aufgaben erlernte Abkürzungen aus ihrem Training widerspiegeln und keine grundsätzliche Einschränkung multimodaler Architekturen darstellen.

English

Vision Language Models (VLMs) achieve impressive performance across a wide range of multimodal tasks. However, on some tasks that demand fine-grained visual perception, they often fail even when the required information is present in their internal representations. In this work, we demonstrate that this gap arises from their narrow training pipeline which focuses on moving visual information to the textual space. Consequently, VLMs can only reason about visual entities that can be mapped to known concepts in the language space, leaving vision-focused tasks such as visual correspondence and reasoning about novel visual entities poorly supported. As a result, VLMs are severely limited in several important multimodal capabilities because they rely on brittle, hallucinated textual descriptions of visual entities that they cannot map to textual representations. We verify this behavior through visual correspondence tasks, in which VLMs must detect matching entities between two images. Testing across semantic, shape, and face correspondence tasks, we find that VLMs perform much better when the relevant entities are nameable in language than when they are unnameable. Mechanistically, our Logit Lens analyses confirm that VLMs explicitly assign semantic labels to nameable entities and surface more unique corresponding tokens compared to unnameable entities. Furthermore, we show that teaching completely arbitrary names for unknown entities improves performance, yet task-specific finetuning yields even stronger generalization without relying on language priors. Our findings suggest that current VLM failures on visual tasks reflect learned shortcuts from their training, rather than a fundamental limitation of multimodal architectures.

VLMs brauchen Wörter: Vision-Language-Modelle ignorieren visuelle Details zugunsten semantischer Anker

VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors

Zusammenfassung

Support