Perdidos en los Embeddings: Pérdida de Información en Modelos de Visión y Lenguaje
Lost in Embeddings: Information Loss in Vision-Language Models
September 15, 2025
Autores: Wenyan Li, Raphael Tang, Chengzu Li, Caiqi Zhang, Ivan Vulić, Anders Søgaard
cs.AI
Resumen
Los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) suelen procesar entradas visuales a través de un codificador de visión preentrenado, seguido de una proyección en el espacio de incrustación del modelo de lenguaje mediante un componente conector. Aunque este paso es crucial para la fusión de modalidades, la posible pérdida de información inducida por esta proyección y su impacto directo en las capacidades del modelo han sido poco estudiados. Introducimos dos enfoques complementarios para examinar y cuantificar esta pérdida mediante el análisis del espacio de representación latente. En primer lugar, evaluamos la preservación de la información semántica analizando los cambios en las relaciones de vecinos más cercanos (k-NN) entre las representaciones de imágenes, antes y después de la proyección. En segundo lugar, medimos directamente la pérdida de información reconstruyendo las incrustaciones visuales a partir de la representación proyectada, localizando la pérdida a nivel de parches de imagen. Los experimentos revelan que los conectores distorsionan sustancialmente la geometría local de las representaciones visuales, con un 40-60% de divergencia en los vecinos más cercanos después de la proyección, lo que se correlaciona con una degradación en el rendimiento de recuperación. La reconstrucción de incrustaciones a nivel de parche proporciona información interpretable sobre el comportamiento del modelo en tareas de respuesta a preguntas basadas en imágenes, encontrando que las áreas de alta pérdida de información predicen de manera confiable los casos en los que los modelos tienen dificultades.
English
Vision--language models (VLMs) often process visual inputs through a
pretrained vision encoder, followed by a projection into the language model's
embedding space via a connector component. While crucial for modality fusion,
the potential information loss induced by this projection step and its direct
impact on model capabilities remain understudied. We introduce two
complementary approaches to examine and quantify this loss by analyzing the
latent representation space. First, we evaluate semantic information
preservation by analyzing changes in k-nearest neighbor relationships between
image representations, before and after projection. Second, we directly measure
information loss by reconstructing visual embeddings from the projected
representation, localizing loss at an image patch level. Experiments reveal
that connectors substantially distort the local geometry of visual
representations, with k-nearest neighbors diverging by 40--60\%
post-projection, correlating with degradation in retrieval performance. The
patch-level embedding reconstruction provides interpretable insights for model
behavior on visually grounded question-answering tasks, finding that areas of
high information loss reliably predict instances where models struggle.