시각 언어 모델은 단어가 필요하다: 시각 언어 모델, 시각적 디테일보다 의미적 정박에 의존하는 경향
VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors
April 2, 2026
저자: Haz Sameen Shahgir, Xiaofu Chen, Yu Fu, Erfan Shayegani, Nael Abu-Ghazaleh, Yova Kementchedjhieva, Yue Dong
cs.AI
초록
비전 언어 모델(VLM)은 다양한 멀티모달 작업에서 인상적인 성능을 달성한다. 그러나 미세한 시각 인식을 요구하는 일부 작업에서는 필요한 정보가 내부 표현에 존재함에도 불구하고 종종 실패한다. 본 연구에서는 이러한 격차가 시각 정보를 텍스트 공간으로 이동시키는 데 중점을 둔 좁은 훈련 파이프라인에서 비롯됨을 보여준다. 결과적으로 VLM은 언어 공간의 알려진 개념으로 매핑될 수 있는 시각 개체에 대해서만 추론이 가능하며, 시각 대응 및 새로운 시각 개체에 대한 추론과 같은 시각 중심 작업은 제대로 지원되지 못한다. 이로 인해 VLM은 텍스트 표현으로 매핑할 수 없는 시각 개체에 대해 취약하고 허구적인 텍스트 설명에 의존해야 하므로 여러 중요한 멀티모달 능력이 심각하게 제한된다. 우리는 두 이미지 간의 일치하는 개체를 감지해야 하는 시각 대응 작업을 통해 이러한 행동을 검증한다. 의미론적, 형태적, 얼굴 대응 작업 전반에 걸친 테스트 결과, 관련 개체가 언어로 명명 가능한 경우가 명명 불가능한 경우보다 VLM 성능이 훨씬 우수함을 확인했다. 기제적으로, 우리의 Logit Lens 분석은 VLM이 명명 가능한 개체에 대해 명시적으로 의미론적 레이블을 할당하고 명명 불가능한 개체에 비해 더 고유한 대응 토큰을 표면화함을 확인한다. 더 나아가 알려지지 않은 개체에 대해 완전히 임의의 이름을 가르치는 것이 성능을 향상시키지만, 작업 특화 파인튜닝은 언어 사전 지식에 의존하지 않으면서도 더 강력한 일반화를 달성함을 보여준다. 우리의 연구 결과는 시각 작업에서의 현재 VLM 실패가 멀티모달 아키텍처의 근본적 한계보다는 훈련에서 학습된 지름길을 반영함을 시사한다.
English
Vision Language Models (VLMs) achieve impressive performance across a wide range of multimodal tasks. However, on some tasks that demand fine-grained visual perception, they often fail even when the required information is present in their internal representations. In this work, we demonstrate that this gap arises from their narrow training pipeline which focuses on moving visual information to the textual space. Consequently, VLMs can only reason about visual entities that can be mapped to known concepts in the language space, leaving vision-focused tasks such as visual correspondence and reasoning about novel visual entities poorly supported. As a result, VLMs are severely limited in several important multimodal capabilities because they rely on brittle, hallucinated textual descriptions of visual entities that they cannot map to textual representations. We verify this behavior through visual correspondence tasks, in which VLMs must detect matching entities between two images. Testing across semantic, shape, and face correspondence tasks, we find that VLMs perform much better when the relevant entities are nameable in language than when they are unnameable. Mechanistically, our Logit Lens analyses confirm that VLMs explicitly assign semantic labels to nameable entities and surface more unique corresponding tokens compared to unnameable entities. Furthermore, we show that teaching completely arbitrary names for unknown entities improves performance, yet task-specific finetuning yields even stronger generalization without relying on language priors. Our findings suggest that current VLM failures on visual tasks reflect learned shortcuts from their training, rather than a fundamental limitation of multimodal architectures.