VL-SAE: 統一概念セットによる視覚言語アラインメントの解釈と強化
VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set
October 24, 2025
著者: Shufan Shen, Junshu Sun, Qingming Huang, Shuhui Wang
cs.AI
要旨
視覚言語表現のアライメントにより、現在の視覚言語モデル(VLM)は強力なマルチモーダル推論能力を獲得している。しかし、マルチモーダル表現の意味を統一的な概念セットに写像する困難さから、このアライメント要素の解釈可能性は未解明のままである。この問題に対処するため、本論文では視覚言語表現を隠れ層の活性化値として符号化するスパースオートエンコーダVL-SAEを提案する。その隠れ層の各ニューロンは、意味的に類似した画像とテキストによって表現される概念に対応し、これにより統一的な概念セットを用いてこれらの表現を解釈する。ニューロンと概念の相関を確立するため、自己教師あり学習において意味的に類似した表現が一貫したニューロン活性化を示すよう促す。まず、マルチモーダル表現の意味的類似度を測定するため、コサイン類似度に基づく明示的なアライメントを実行する。次に、距離ベースのエンコーダと2つのモダリティ特化デコーダでVL-SAEを構築し、意味的類似表現の活性化一貫性を保証する。複数VLM(CLIP、LLaVA等)での実験により、VL-SAEが視覚言語アライメントの解釈と強化において優れた能力を発揮することを実証する。解釈面では、視覚と言語表現間のアライメントを概念との意味比較により理解可能となる。強化面では、概念レベルでの視覚言語表現アライメントにより統合が強化され、ゼロショット画像分類や幻覚排除などの下流タスク性能向上に寄与する。コードはhttps://github.com/ssfgunner/VL-SAE で公開されている。
English
The alignment of vision-language representations endows current
Vision-Language Models (VLMs) with strong multi-modal reasoning capabilities.
However, the interpretability of the alignment component remains uninvestigated
due to the difficulty in mapping the semantics of multi-modal representations
into a unified concept set. To address this problem, we propose VL-SAE, a
sparse autoencoder that encodes vision-language representations into its hidden
activations. Each neuron in its hidden layer correlates to a concept
represented by semantically similar images and texts, thereby interpreting
these representations with a unified concept set. To establish the
neuron-concept correlation, we encourage semantically similar representations
to exhibit consistent neuron activations during self-supervised training.
First, to measure the semantic similarity of multi-modal representations, we
perform their alignment in an explicit form based on cosine similarity. Second,
we construct the VL-SAE with a distance-based encoder and two modality-specific
decoders to ensure the activation consistency of semantically similar
representations. Experiments across multiple VLMs (e.g., CLIP, LLaVA)
demonstrate the superior capability of VL-SAE in interpreting and enhancing the
vision-language alignment. For interpretation, the alignment between vision and
language representations can be understood by comparing their semantics with
concepts. For enhancement, the alignment can be strengthened by aligning
vision-language representations at the concept level, contributing to
performance improvements in downstream tasks, including zero-shot image
classification and hallucination elimination. Codes are available at
https://github.com/ssfgunner/VL-SAE.