Verloren in den Embeddings: Informationsverlust in Vision-Sprache-Modellen
Lost in Embeddings: Information Loss in Vision-Language Models
September 15, 2025
papers.authors: Wenyan Li, Raphael Tang, Chengzu Li, Caiqi Zhang, Ivan Vulić, Anders Søgaard
cs.AI
papers.abstract
Vision-Language-Modelle (VLMs) verarbeiten visuelle Eingaben oft durch einen vortrainierten Vision-Encoder, gefolgt von einer Projektion in den Einbettungsraum des Sprachmodells über eine Verbindungskomponente. Obwohl dieser Schritt für die Modalfusion entscheidend ist, bleiben der potenzielle Informationsverlust durch diese Projektion und dessen direkte Auswirkungen auf die Modellfähigkeiten weitgehend unerforscht. Wir stellen zwei komplementäre Ansätze vor, um diesen Verlust zu untersuchen und zu quantifizieren, indem wir den latenten Repräsentationsraum analysieren. Zunächst bewerten wir die Erhaltung semantischer Informationen, indem wir Veränderungen in den k-nächsten-Nachbar-Beziehungen zwischen Bildrepräsentationen vor und nach der Projektion analysieren. Zweitens messen wir den Informationsverlust direkt, indem wir visuelle Einbettungen aus der projizierten Repräsentation rekonstruieren und den Verlust auf Ebene von Bildpatches lokalisieren. Experimente zeigen, dass Verbindungskomponenten die lokale Geometrie visueller Repräsentationen erheblich verzerren, wobei sich die k-nächsten Nachbarn nach der Projektion um 40–60\% unterscheiden, was mit einer Verschlechterung der Retrieval-Leistung korreliert. Die Rekonstruktion der Einbettungen auf Patch-Ebene liefert interpretierbare Einblicke in das Modellverhalten bei visuell fundierten Frage-Antwort-Aufgaben, wobei festgestellt wird, dass Bereiche mit hohem Informationsverlust zuverlässig Fälle vorhersagen, in denen Modelle Schwierigkeiten haben.
English
Vision--language models (VLMs) often process visual inputs through a
pretrained vision encoder, followed by a projection into the language model's
embedding space via a connector component. While crucial for modality fusion,
the potential information loss induced by this projection step and its direct
impact on model capabilities remain understudied. We introduce two
complementary approaches to examine and quantify this loss by analyzing the
latent representation space. First, we evaluate semantic information
preservation by analyzing changes in k-nearest neighbor relationships between
image representations, before and after projection. Second, we directly measure
information loss by reconstructing visual embeddings from the projected
representation, localizing loss at an image patch level. Experiments reveal
that connectors substantially distort the local geometry of visual
representations, with k-nearest neighbors diverging by 40--60\%
post-projection, correlating with degradation in retrieval performance. The
patch-level embedding reconstruction provides interpretable insights for model
behavior on visually grounded question-answering tasks, finding that areas of
high information loss reliably predict instances where models struggle.