Les VLMs ont besoin de mots : les modèles vision-langage ignorent les détails visuels au profit d'ancres sémantiques

Résumé

Les modèles de vision et langage (VLM) obtiennent des performances impressionnantes sur un large éventail de tâches multimodales. Cependant, sur certaines tâches nécessitant une perception visuelle fine, ils échouent souvent même lorsque les informations requises sont présentes dans leurs représentations internes. Dans ce travail, nous démontrons que cet écart provient de leur pipeline d'entraînement étroit qui se concentre sur le transfert d'informations visuelles vers l'espace textuel. Par conséquent, les VLM ne peuvent raisonner que sur des entités visuelles pouvant être mappées à des concepts connus dans l'espace linguistique, laissant les tâches centrées sur la vision comme la correspondance visuelle et le raisonnement sur des entités visuelles novatrices mal prises en charge. En conséquence, les VLM sont sévèrement limités dans plusieurs capacités multimodales importantes car ils s'appuient sur des descriptions textuelles fragiles et hallucinées d'entités visuelles qu'ils ne peuvent pas mapper à des représentations textuelles. Nous vérifions ce comportement via des tâches de correspondance visuelle, dans lesquelles les VLM doivent détecter des entités correspondantes entre deux images. En testant sur des tâches de correspondance sémantique, de forme et faciale, nous constatons que les VLM performent bien mieux lorsque les entités pertinentes sont nommables dans le langage que lorsqu'elles sont innommables. Mécaniquement, nos analyses Logit Lens confirment que les VLM attribuent explicitement des étiquettes sémantiques aux entités nommables et génèrent des tokens correspondants plus uniques comparé aux entités innommables. De plus, nous montrons qu'enseigner des noms arbitraires pour des entités inconnues améliore les performances, mais qu'un affinage spécifique aux tâches permet une généralisation encore plus forte sans s'appuyer sur des prérequis linguistiques. Nos résultats suggèrent que les échecs actuels des VLM sur les tâches visuelles reflètent des raccourcis appris lors de leur entraînement, plutôt qu'une limitation fondamentale des architectures multimodales.

English

Vision Language Models (VLMs) achieve impressive performance across a wide range of multimodal tasks. However, on some tasks that demand fine-grained visual perception, they often fail even when the required information is present in their internal representations. In this work, we demonstrate that this gap arises from their narrow training pipeline which focuses on moving visual information to the textual space. Consequently, VLMs can only reason about visual entities that can be mapped to known concepts in the language space, leaving vision-focused tasks such as visual correspondence and reasoning about novel visual entities poorly supported. As a result, VLMs are severely limited in several important multimodal capabilities because they rely on brittle, hallucinated textual descriptions of visual entities that they cannot map to textual representations. We verify this behavior through visual correspondence tasks, in which VLMs must detect matching entities between two images. Testing across semantic, shape, and face correspondence tasks, we find that VLMs perform much better when the relevant entities are nameable in language than when they are unnameable. Mechanistically, our Logit Lens analyses confirm that VLMs explicitly assign semantic labels to nameable entities and surface more unique corresponding tokens compared to unnameable entities. Furthermore, we show that teaching completely arbitrary names for unknown entities improves performance, yet task-specific finetuning yields even stronger generalization without relying on language priors. Our findings suggest that current VLM failures on visual tasks reflect learned shortcuts from their training, rather than a fundamental limitation of multimodal architectures.

Les VLMs ont besoin de mots : les modèles vision-langage ignorent les détails visuels au profit d'ancres sémantiques

VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors

Résumé

Support