Perdido nas Incorporações: Perda de Informação em Modelos Visão-Linguagem
Lost in Embeddings: Information Loss in Vision-Language Models
September 15, 2025
Autores: Wenyan Li, Raphael Tang, Chengzu Li, Caiqi Zhang, Ivan Vulić, Anders Søgaard
cs.AI
Resumo
Modelos visão-linguagem (VLMs) frequentemente processam entradas visuais por meio de um codificador visual pré-treinado, seguido por uma projeção no espaço de incorporação do modelo de linguagem através de um componente conector. Embora crucial para a fusão de modalidades, a potencial perda de informação induzida por essa etapa de projeção e seu impacto direto nas capacidades do modelo permanecem pouco estudados. Introduzimos duas abordagens complementares para examinar e quantificar essa perda, analisando o espaço de representação latente. Primeiro, avaliamos a preservação de informação semântica analisando mudanças nas relações de k-vizinhos mais próximos entre as representações de imagens, antes e depois da projeção. Segundo, medimos diretamente a perda de informação reconstruindo incorporações visuais a partir da representação projetada, localizando a perda em nível de segmentos de imagem. Experimentos revelam que os conectores distorcem substancialmente a geometria local das representações visuais, com k-vizinhos mais próximos divergindo em 40--60\% após a projeção, correlacionando-se com a degradação no desempenho de recuperação. A reconstrução de incorporações em nível de segmento fornece insights interpretáveis sobre o comportamento do modelo em tarefas de questionamento baseado em visão, mostrando que áreas de alta perda de informação preveem de forma confiável instâncias em que os modelos têm dificuldades.
English
Vision--language models (VLMs) often process visual inputs through a
pretrained vision encoder, followed by a projection into the language model's
embedding space via a connector component. While crucial for modality fusion,
the potential information loss induced by this projection step and its direct
impact on model capabilities remain understudied. We introduce two
complementary approaches to examine and quantify this loss by analyzing the
latent representation space. First, we evaluate semantic information
preservation by analyzing changes in k-nearest neighbor relationships between
image representations, before and after projection. Second, we directly measure
information loss by reconstructing visual embeddings from the projected
representation, localizing loss at an image patch level. Experiments reveal
that connectors substantially distort the local geometry of visual
representations, with k-nearest neighbors diverging by 40--60\%
post-projection, correlating with degradation in retrieval performance. The
patch-level embedding reconstruction provides interpretable insights for model
behavior on visually grounded question-answering tasks, finding that areas of
high information loss reliably predict instances where models struggle.