VL-SAE : Interprétation et amélioration de l'alignement vision-langage avec un ensemble de concepts unifié
VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set
October 24, 2025
papers.authors: Shufan Shen, Junshu Sun, Qingming Huang, Shuhui Wang
cs.AI
papers.abstract
L'alignement des représentations vision-langue confère aux modèles vision-langue (VLM) actuels de solides capacités de raisonnement multimodal. Cependant, l'interprétabilité de la composante d'alignement reste peu explorée en raison de la difficulté à cartographier la sémantique des représentations multimodales dans un ensemble de concepts unifié. Pour résoudre ce problème, nous proposons VL-SAE, un autoencodeur creux qui encode les représentations vision-langue dans ses activations cachées. Chaque neurone de sa couche cachée est corrélé à un concept représenté par des images et des textes sémantiquement similaires, interprétant ainsi ces représentations avec un ensemble de concepts unifié. Pour établir la corrélation neurone-concept, nous encourageons les représentations sémantiquement similaires à présenter des activations neuronales cohérentes lors de l'apprentissage auto-supervisé. Premièrement, pour mesurer la similarité sémantique des représentations multimodales, nous effectuons leur alignement sous une forme explicite basée sur la similarité cosinus. Deuxièmement, nous construisons le VL-SAE avec un encodeur basé sur la distance et deux décodeurs spécifiques à une modalité pour garantir la cohérence d'activation des représentations sémantiquement similaires. Les expériences sur plusieurs VLM (par exemple, CLIP, LLaVA) démontrent la capacité supérieure de VL-SAE à interpréter et améliorer l'alignement vision-langue. Pour l'interprétation, l'alignement entre les représentations visuelles et linguistiques peut être compris en comparant leur sémantique avec des concepts. Pour l'amélioration, l'alignement peut être renforcé en alignant les représentations vision-langue au niveau conceptuel, contribuant à des améliorations de performance dans les tâches en aval, incluant la classification d'images zero-shot et l'élimination des hallucinations. Les codes sont disponibles à l'adresse https://github.com/ssfgunner/VL-SAE.
English
The alignment of vision-language representations endows current
Vision-Language Models (VLMs) with strong multi-modal reasoning capabilities.
However, the interpretability of the alignment component remains uninvestigated
due to the difficulty in mapping the semantics of multi-modal representations
into a unified concept set. To address this problem, we propose VL-SAE, a
sparse autoencoder that encodes vision-language representations into its hidden
activations. Each neuron in its hidden layer correlates to a concept
represented by semantically similar images and texts, thereby interpreting
these representations with a unified concept set. To establish the
neuron-concept correlation, we encourage semantically similar representations
to exhibit consistent neuron activations during self-supervised training.
First, to measure the semantic similarity of multi-modal representations, we
perform their alignment in an explicit form based on cosine similarity. Second,
we construct the VL-SAE with a distance-based encoder and two modality-specific
decoders to ensure the activation consistency of semantically similar
representations. Experiments across multiple VLMs (e.g., CLIP, LLaVA)
demonstrate the superior capability of VL-SAE in interpreting and enhancing the
vision-language alignment. For interpretation, the alignment between vision and
language representations can be understood by comparing their semantics with
concepts. For enhancement, the alignment can be strengthened by aligning
vision-language representations at the concept level, contributing to
performance improvements in downstream tasks, including zero-shot image
classification and hallucination elimination. Codes are available at
https://github.com/ssfgunner/VL-SAE.