Oculto a simple vista: los modelos de lenguaje visual pasan por alto sus representaciones visuales
Hidden in plain sight: VLMs overlook their visual representations
June 9, 2025
Autores: Stephanie Fu, Tyler Bonnen, Devin Guillory, Trevor Darrell
cs.AI
Resumen
El lenguaje proporciona una interfaz natural para especificar y evaluar el rendimiento en tareas visuales. Para materializar esta posibilidad, los modelos de lenguaje visual (VLMs, por sus siglas en inglés) deben integrar con éxito la información visual y lingüística. Nuestro trabajo compara los VLMs con una lectura directa de sus codificadores visuales para comprender su capacidad de integrar estas modalidades. A través de una serie de benchmarks centrados en visión (por ejemplo, estimación de profundidad, correspondencia), encontramos que los VLMs tienen un rendimiento sustancialmente peor que sus codificadores visuales, cayendo a niveles cercanos al azar. Investigamos estos resultados mediante una serie de análisis en todo el VLM: específicamente 1) la degradación de las representaciones visuales, 2) la fragilidad ante el prompt de la tarea, y 3) el papel del modelo de lenguaje en la resolución de la tarea. Descubrimos que el cuello de botella en la ejecución de estas tareas centradas en la visión radica en esta tercera categoría; los VLMs no están utilizando eficazmente la información visual que es fácilmente accesible en todo el modelo, y heredan los sesgos lingüísticos presentes en el LLM. Nuestro trabajo ayuda a diagnosticar los modos de fallo de los VLMs de código abierto y presenta una serie de evaluaciones útiles para futuras investigaciones sobre la comprensión visual dentro de los VLMs.
English
Language provides a natural interface to specify and evaluate performance on
visual tasks. To realize this possibility, vision language models (VLMs) must
successfully integrate visual and linguistic information. Our work compares
VLMs to a direct readout of their visual encoders to understand their ability
to integrate across these modalities. Across a series of vision-centric
benchmarks (e.g., depth estimation, correspondence), we find that VLMs perform
substantially worse than their visual encoders, dropping to near-chance
performance. We investigate these results through a series of analyses across
the entire VLM: namely 1) the degradation of vision representations, 2)
brittleness to task prompt, and 3) the language model's role in solving the
task. We find that the bottleneck in performing these vision-centric tasks lies
in this third category; VLMs are not effectively using visual information
easily accessible throughout the entire model, and they inherit the language
priors present in the LLM. Our work helps diagnose the failure modes of
open-source VLMs, and presents a series of evaluations useful for future
investigations into visual understanding within VLMs.