ChatPaper.aiChatPaper

VL-SAE: Interpretare e Migliorare l'Allineamento Visione-Linguaggio con un Set di Concetti Unificato

VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set

October 24, 2025
Autori: Shufan Shen, Junshu Sun, Qingming Huang, Shuhui Wang
cs.AI

Abstract

L'allineamento delle rappresentazioni visione-linguaggio conferisce agli attuali Modelli Visione-Linguaggio (VLM) forti capacità di ragionamento multimodale. Tuttavia, l'interpretabilità del componente di allineamento rimane non indagata a causa della difficoltà nel mappare la semantica delle rappresentazioni multimodali in un insieme di concetti unificato. Per affrontare questo problema, proponiamo VL-SAE, un autoencoder sparso che codifica le rappresentazioni visione-linguaggio nelle sue attivazioni nascoste. Ogni neurone nel suo strato nascosto si correla a un concetto rappresentato da immagini e testi semanticamente simili, interpretando così queste rappresentazioni con un insieme di concetti unificato. Per stabilire la correlazione neurone-concetto, incoraggiamo durante l'addestramento auto-supervisionato rappresentazioni semanticamente simili ad esibire attivazioni neuronali consistenti. In primo luogo, per misurare la similarità semantica delle rappresentazioni multimodali, ne eseguiamo l'allineamento in forma esplicita basata sulla similarità del coseno. In secondo luogo, costruiamo il VL-SAE con un encoder basato sulla distanza e due decoder specifici per modalità per garantire la consistenza di attivazione di rappresentazioni semanticamente simili. Esperimenti su molteplici VLM (ad es., CLIP, LLaVA) dimostrano la capacità superiore di VL-SAE nell'interpretare e potenziare l'allineamento visione-linguaggio. Per l'interpretazione, l'allineamento tra le rappresentazioni visive e linguistiche può essere compreso confrontandone la semantica con i concetti. Per il potenziamento, l'allineamento può essere rafforzato allineando le rappresentazioni visione-linguaggio a livello concettuale, contribuendo a miglioramenti delle prestazioni in task downstream, inclusa la classificazione di immagini zero-shot e l'eliminazione di allucinazioni. I codici sono disponibili su https://github.com/ssfgunner/VL-SAE.
English
The alignment of vision-language representations endows current Vision-Language Models (VLMs) with strong multi-modal reasoning capabilities. However, the interpretability of the alignment component remains uninvestigated due to the difficulty in mapping the semantics of multi-modal representations into a unified concept set. To address this problem, we propose VL-SAE, a sparse autoencoder that encodes vision-language representations into its hidden activations. Each neuron in its hidden layer correlates to a concept represented by semantically similar images and texts, thereby interpreting these representations with a unified concept set. To establish the neuron-concept correlation, we encourage semantically similar representations to exhibit consistent neuron activations during self-supervised training. First, to measure the semantic similarity of multi-modal representations, we perform their alignment in an explicit form based on cosine similarity. Second, we construct the VL-SAE with a distance-based encoder and two modality-specific decoders to ensure the activation consistency of semantically similar representations. Experiments across multiple VLMs (e.g., CLIP, LLaVA) demonstrate the superior capability of VL-SAE in interpreting and enhancing the vision-language alignment. For interpretation, the alignment between vision and language representations can be understood by comparing their semantics with concepts. For enhancement, the alignment can be strengthened by aligning vision-language representations at the concept level, contributing to performance improvements in downstream tasks, including zero-shot image classification and hallucination elimination. Codes are available at https://github.com/ssfgunner/VL-SAE.
PDF31December 1, 2025