ChatPaper.aiChatPaper

VL-SAE: Interpretatie en verbetering van visie-taal-uitlijning met een uniforme conceptenset

VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set

October 24, 2025
Auteurs: Shufan Shen, Junshu Sun, Qingming Huang, Shuhui Wang
cs.AI

Samenvatting

De uitlijning van visie-taalrepresentaties verleent huidige Visie-Taalmodellen (VLM's) sterke multimodale redeneervermogens. Echter, de interpreteerbaarheid van de uitlijningscomponent blijft ononderzocht vanwege de moeilijkheid om de semantiek van multimodale representaties af te beelden op een uniforme conceptenset. Om dit probleem aan te pakken, stellen we VL-SAE voor, een spaarse auto-encoder die visie-taalrepresentaties codeert in zijn verborgen activaties. Elke neuron in zijn verborgen laag correleert met een concept dat wordt gerepresenteerd door semantisch vergelijkbare afbeeldingen en teksten, waardoor deze representaties worden geïnterpreteerd met een uniforme conceptenset. Om de neuron-conceptcorrelatie vast te stellen, stimuleren we dat semantisch vergelijkbare representaties consistente neuronactivaties vertonen tijdens zelfgesuperviseerde training. Ten eerste meten we de semantische gelijkenis van multimodale representaties door hun uitlijning expliciet te baseren op cosinusgelijkenis. Ten tweede construeren we VL-SAE met een op afstand gebaseerde encoder en twee modaal-specifieke decoders om de activatieconsistentie van semantisch vergelijkbare representaties te garanderen. Experimenten met diverse VLM's (bijv. CLIP, LLaVA) tonen de superieure capaciteit van VL-SAE aan in het interpreteren en versterken van visie-taaluitlijning. Voor interpretatie kan de uitlijning tussen visie- en taalrepresentaties worden begrepen door hun semantiek met concepten te vergelijken. Voor verbetering kan de uitlijning worden versterkt door visie-taalrepresentaties op conceptniveau uit te lijnen, wat bijdraagt aan prestatieverbeteringen in downstreamtaken, inclusief zero-shot beeldclassificatie en hallucinatie-eliminatie. Code is beschikbaar op https://github.com/ssfgunner/VL-SAE.
English
The alignment of vision-language representations endows current Vision-Language Models (VLMs) with strong multi-modal reasoning capabilities. However, the interpretability of the alignment component remains uninvestigated due to the difficulty in mapping the semantics of multi-modal representations into a unified concept set. To address this problem, we propose VL-SAE, a sparse autoencoder that encodes vision-language representations into its hidden activations. Each neuron in its hidden layer correlates to a concept represented by semantically similar images and texts, thereby interpreting these representations with a unified concept set. To establish the neuron-concept correlation, we encourage semantically similar representations to exhibit consistent neuron activations during self-supervised training. First, to measure the semantic similarity of multi-modal representations, we perform their alignment in an explicit form based on cosine similarity. Second, we construct the VL-SAE with a distance-based encoder and two modality-specific decoders to ensure the activation consistency of semantically similar representations. Experiments across multiple VLMs (e.g., CLIP, LLaVA) demonstrate the superior capability of VL-SAE in interpreting and enhancing the vision-language alignment. For interpretation, the alignment between vision and language representations can be understood by comparing their semantics with concepts. For enhancement, the alignment can be strengthened by aligning vision-language representations at the concept level, contributing to performance improvements in downstream tasks, including zero-shot image classification and hallucination elimination. Codes are available at https://github.com/ssfgunner/VL-SAE.
PDF31December 1, 2025