ChatPaper.aiChatPaper

VLMs нуждаются в словах: языковые модели зрения игнорируют визуальные детали в пользу семантических якорей

VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors

April 2, 2026
Авторы: Haz Sameen Shahgir, Xiaofu Chen, Yu Fu, Erfan Shayegani, Nael Abu-Ghazaleh, Yova Kementchedjhieva, Yue Dong
cs.AI

Аннотация

Модели «язык-зрение» (Vision Language Models, VLM) демонстрируют впечатляющие результаты в решении широкого спектра мультимодальных задач. Однако в некоторых задачах, требующих тонкого визуального восприятия, они часто терпят неудачу, даже когда необходимая информация присутствует в их внутренних представлениях. В данной работе мы показываем, что этот разрыв возникает из-за узкой обучающей процедуры, которая фокусируется на переносе визуальной информации в текстовое пространство. Как следствие, VLM могут рассуждать только о визуальных сущностях, которые можно отобразить на известные концепции в языковом пространстве, оставляя слабо поддержанными такие ориентированные на зрение задачи, как визуальное соответствие и рассуждение о новых визуальных сущностях. В результате VLM серьезно ограничены в нескольких важных мультимодальных возможностях, поскольку они полагаются на хрупкие, галлюцинированные текстовые описания визуальных сущностей, которые не могут быть отображены на текстовые представления. Мы проверяем это поведение с помощью задач на визуальное соответствие, в которых VLM должны обнаруживать совпадающие сущности на двух изображениях. Тестируя на задачах семантического, форменного и лицевого соответствия, мы обнаруживаем, что VLM работают значительно лучше, когда соответствующие сущности могут быть названы на языке, по сравнению с ситуацией, когда они не могут быть названы. Механистически наши анализы с помощью «Линзы логитов» (Logit Lens) подтверждают, что VLM явно присваивают семантические метки именуемым сущностям и генерируют более уникальные соответствующие токены по сравнению с неименуемыми сущностями. Кроме того, мы показываем, что обучение произвольным именам для неизвестных сущностей улучшает производительность, однако специфичная для задачи дообучка дает еще более сильное обобщение без опоры на языковые априорные знания. Наши результаты позволяют предположить, что текущие неудачи VLM в визуальных задачах отражают выученные сокращения из их обучения, а не фундаментальное ограничение мультимодальных архитектур.
English
Vision Language Models (VLMs) achieve impressive performance across a wide range of multimodal tasks. However, on some tasks that demand fine-grained visual perception, they often fail even when the required information is present in their internal representations. In this work, we demonstrate that this gap arises from their narrow training pipeline which focuses on moving visual information to the textual space. Consequently, VLMs can only reason about visual entities that can be mapped to known concepts in the language space, leaving vision-focused tasks such as visual correspondence and reasoning about novel visual entities poorly supported. As a result, VLMs are severely limited in several important multimodal capabilities because they rely on brittle, hallucinated textual descriptions of visual entities that they cannot map to textual representations. We verify this behavior through visual correspondence tasks, in which VLMs must detect matching entities between two images. Testing across semantic, shape, and face correspondence tasks, we find that VLMs perform much better when the relevant entities are nameable in language than when they are unnameable. Mechanistically, our Logit Lens analyses confirm that VLMs explicitly assign semantic labels to nameable entities and surface more unique corresponding tokens compared to unnameable entities. Furthermore, we show that teaching completely arbitrary names for unknown entities improves performance, yet task-specific finetuning yields even stronger generalization without relying on language priors. Our findings suggest that current VLM failures on visual tasks reflect learned shortcuts from their training, rather than a fundamental limitation of multimodal architectures.
PDF21April 7, 2026