Los Modelos de Lenguaje Visual Necesitan Palabras: Los Modelos de Lenguaje Visual Ignoran el Detalle Visual en Favor de Anclajes Semánticos

Resumen

Los Modelos de Lenguaje Visual (VLMs) logran un rendimiento impresionante en una amplia gama de tareas multimodales. Sin embargo, en algunas tareas que requieren una percepción visual fina, a menudo fallan incluso cuando la información necesaria está presente en sus representaciones internas. En este trabajo, demostramos que esta brecha surge de su estrecho pipeline de entrenamiento, que se centra en trasladar la información visual al espacio textual. En consecuencia, los VLMs solo pueden razonar sobre entidades visuales que pueden mapearse a conceptos conocidos en el espacio lingüístico, dejando las tareas centradas en la visión, como la correspondencia visual y el razonamiento sobre entidades visuales novedosas, pobremente soportadas. Como resultado, los VLMs están severamente limitados en varias capacidades multimodales importantes porque dependen de descripciones textuales frágiles y alucinadas de entidades visuales que no pueden mapear a representaciones textuales. Verificamos este comportamiento mediante tareas de correspondencia visual, en las que los VLMs deben detectar entidades coincidentes entre dos imágenes. Al evaluar en tareas de correspondencia semántica, de forma y facial, encontramos que los VLMs se desempeñan mucho mejor cuando las entidades relevantes son nombrables en el lenguaje que cuando no lo son. Mecánicamente, nuestros análisis con Logit Lens confirman que los VLMs asignan etiquetas semánticas explícitas a entidades nombrables y generan tokens correspondientes más únicos en comparación con las entidades no nombrables. Además, demostramos que enseñar nombres completamente arbitrarios para entidades desconocidas mejora el rendimiento, aunque el ajuste fino específico de la tarea produce una generalización aún más fuerte sin depender de conocimientos previos lingüísticos. Nuestros hallazgos sugieren que los fallos actuales de los VLMs en tareas visuales reflejan atajos aprendidos de su entrenamiento, en lugar de una limitación fundamental de las arquitecturas multimodales.

English

Vision Language Models (VLMs) achieve impressive performance across a wide range of multimodal tasks. However, on some tasks that demand fine-grained visual perception, they often fail even when the required information is present in their internal representations. In this work, we demonstrate that this gap arises from their narrow training pipeline which focuses on moving visual information to the textual space. Consequently, VLMs can only reason about visual entities that can be mapped to known concepts in the language space, leaving vision-focused tasks such as visual correspondence and reasoning about novel visual entities poorly supported. As a result, VLMs are severely limited in several important multimodal capabilities because they rely on brittle, hallucinated textual descriptions of visual entities that they cannot map to textual representations. We verify this behavior through visual correspondence tasks, in which VLMs must detect matching entities between two images. Testing across semantic, shape, and face correspondence tasks, we find that VLMs perform much better when the relevant entities are nameable in language than when they are unnameable. Mechanistically, our Logit Lens analyses confirm that VLMs explicitly assign semantic labels to nameable entities and surface more unique corresponding tokens compared to unnameable entities. Furthermore, we show that teaching completely arbitrary names for unknown entities improves performance, yet task-specific finetuning yields even stronger generalization without relying on language priors. Our findings suggest that current VLM failures on visual tasks reflect learned shortcuts from their training, rather than a fundamental limitation of multimodal architectures.

Los Modelos de Lenguaje Visual Necesitan Palabras: Los Modelos de Lenguaje Visual Ignoran el Detalle Visual en Favor de Anclajes Semánticos

VLMs Need Words: Vision Language Models Ignore Visual Detail In Favor of Semantic Anchors

Resumen

Support