Verloren in den Embeddings: Informationsverlust in Vision-Sprache-Modellen

papers.abstract

Vision-Language-Modelle (VLMs) verarbeiten visuelle Eingaben oft durch einen vortrainierten Vision-Encoder, gefolgt von einer Projektion in den Einbettungsraum des Sprachmodells über eine Verbindungskomponente. Obwohl dieser Schritt für die Modalfusion entscheidend ist, bleiben der potenzielle Informationsverlust durch diese Projektion und dessen direkte Auswirkungen auf die Modellfähigkeiten weitgehend unerforscht. Wir stellen zwei komplementäre Ansätze vor, um diesen Verlust zu untersuchen und zu quantifizieren, indem wir den latenten Repräsentationsraum analysieren. Zunächst bewerten wir die Erhaltung semantischer Informationen, indem wir Veränderungen in den k-nächsten-Nachbar-Beziehungen zwischen Bildrepräsentationen vor und nach der Projektion analysieren. Zweitens messen wir den Informationsverlust direkt, indem wir visuelle Einbettungen aus der projizierten Repräsentation rekonstruieren und den Verlust auf Ebene von Bildpatches lokalisieren. Experimente zeigen, dass Verbindungskomponenten die lokale Geometrie visueller Repräsentationen erheblich verzerren, wobei sich die k-nächsten Nachbarn nach der Projektion um 40–60\% unterscheiden, was mit einer Verschlechterung der Retrieval-Leistung korreliert. Die Rekonstruktion der Einbettungen auf Patch-Ebene liefert interpretierbare Einblicke in das Modellverhalten bei visuell fundierten Frage-Antwort-Aufgaben, wobei festgestellt wird, dass Bereiche mit hohem Informationsverlust zuverlässig Fälle vorhersagen, in denen Modelle Schwierigkeiten haben.

English

Vision--language models (VLMs) often process visual inputs through a pretrained vision encoder, followed by a projection into the language model's embedding space via a connector component. While crucial for modality fusion, the potential information loss induced by this projection step and its direct impact on model capabilities remain understudied. We introduce two complementary approaches to examine and quantify this loss by analyzing the latent representation space. First, we evaluate semantic information preservation by analyzing changes in k-nearest neighbor relationships between image representations, before and after projection. Second, we directly measure information loss by reconstructing visual embeddings from the projected representation, localizing loss at an image patch level. Experiments reveal that connectors substantially distort the local geometry of visual representations, with k-nearest neighbors diverging by 40--60\% post-projection, correlating with degradation in retrieval performance. The patch-level embedding reconstruction provides interpretable insights for model behavior on visually grounded question-answering tasks, finding that areas of high information loss reliably predict instances where models struggle.

Verloren in den Embeddings: Informationsverlust in Vision-Sprache-Modellen

Lost in Embeddings: Information Loss in Vision-Language Models

papers.abstract

Support