VL-SAE: Interpretation und Verbesserung der Vision-Language-Ausrichtung mit einem vereinheitlichten Konzeptset
VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set
October 24, 2025
papers.authors: Shufan Shen, Junshu Sun, Qingming Huang, Shuhui Wang
cs.AI
papers.abstract
Die Ausrichtung von Vision-Sprache-Repräsentationen verleiht aktuellen Vision-Sprache-Modellen (VLMs) starke multimodale Reasoning-Fähigkeiten. Die Interpretierbarkeit der Ausrichtungskomponente bleibt jedoch unerforscht, da es schwierig ist, die Semantik multimodaler Repräsentationen auf einen einheitlichen Konzeptset abzubilden. Um dieses Problem zu lösen, schlagen wir VL-SAE vor, einen Sparse Autoencoder, der Vision-Sprache-Repräsentationen in seinen versteckten Aktivierungen kodiert. Jedes Neuron in seiner versteckten Schicht korreliert mit einem Konzept, das durch semantisch ähnliche Bilder und Texte repräsentiert wird, wodurch diese Repräsentationen mit einem einheitlichen Konzeptset interpretiert werden. Um die Neuron-Konzept-Korrelation herzustellen, fördern wir während des selbstüberwachten Trainings, dass semantisch ähnliche Repräsentationen konsistente Neuronaktivierungen aufweisen. Erstens führen wir die Ausrichtung multimodaler Repräsentationen in expliziter Form auf Basis der Kosinusähnlichkeit durch, um deren semantische Ähnlichkeit zu messen. Zweitens konstruieren wir VL-SAE mit einem distanzbasierten Encoder und zwei modalitätsspezifischen Decodern, um die Aktivierungskonsistenz semantisch ähnlicher Repräsentationen zu gewährleisten. Experimente mit verschiedenen VLMs (z.B. CLIP, LLaVA) demonstrieren die überlegene Fähigkeit von VL-SAE bei der Interpretation und Verbesserung der Vision-Sprache-Ausrichtung. Zur Interpretation kann die Ausrichtung zwischen visuellen und sprachlichen Repräsentationen durch den Vergleich ihrer Semantik mit Konzepten verstanden werden. Zur Verbesserung kann die Ausrichtung durch die Abstimmung von Vision-Sprache-Repräsentationen auf Konzeptebene gestärkt werden, was zu Leistungsverbesserungen in nachgelagerten Aufgaben beiträgt, einschließlich Zero-Shot-Bildklassifizierung und Halluzinationsbeseitigung. Codes sind verfügbar unter https://github.com/ssfgunner/VL-SAE.
English
The alignment of vision-language representations endows current
Vision-Language Models (VLMs) with strong multi-modal reasoning capabilities.
However, the interpretability of the alignment component remains uninvestigated
due to the difficulty in mapping the semantics of multi-modal representations
into a unified concept set. To address this problem, we propose VL-SAE, a
sparse autoencoder that encodes vision-language representations into its hidden
activations. Each neuron in its hidden layer correlates to a concept
represented by semantically similar images and texts, thereby interpreting
these representations with a unified concept set. To establish the
neuron-concept correlation, we encourage semantically similar representations
to exhibit consistent neuron activations during self-supervised training.
First, to measure the semantic similarity of multi-modal representations, we
perform their alignment in an explicit form based on cosine similarity. Second,
we construct the VL-SAE with a distance-based encoder and two modality-specific
decoders to ensure the activation consistency of semantically similar
representations. Experiments across multiple VLMs (e.g., CLIP, LLaVA)
demonstrate the superior capability of VL-SAE in interpreting and enhancing the
vision-language alignment. For interpretation, the alignment between vision and
language representations can be understood by comparing their semantics with
concepts. For enhancement, the alignment can be strengthened by aligning
vision-language representations at the concept level, contributing to
performance improvements in downstream tasks, including zero-shot image
classification and hallucination elimination. Codes are available at
https://github.com/ssfgunner/VL-SAE.