VL-SAE: 통합 개념 집합을 활용한 시각-언어 정렬 해석 및 향상
VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set
October 24, 2025
저자: Shufan Shen, Junshu Sun, Qingming Huang, Shuhui Wang
cs.AI
초록
시각-언어 표현의 정렬은 현재의 시각-언어 모델(VLMs)에 강력한 다중 모달 추론 능력을 부여합니다. 그러나 다중 모달 표현의 의미를 통합된 개념 집합으로 매핑하는 어려움으로 인해 정렬 구성 요소의 해석 가능성은 아직 연구되지 않은 상태입니다. 이 문제를 해결하기 위해 우리는 시각-언어 표현을 은닉 활성화로 인코딩하는 희소 오토인코더인 VL-SAE를 제안합니다. 은닉층의 각 뉴런은 의미적으로 유사한 이미지와 텍스트로 표현되는 개념과 상관관계를 가지며, 이를 통해 이러한 표현을 통합된 개념 집합으로 해석합니다. 뉴런-개념 상관관계를 확립하기 위해 우리는 자기 지도 학습 과정에서 의미적으로 유사한 표현이 일관된 뉴런 활성화를 나타내도록 유도합니다. 첫째, 다중 모달 표현의 의미적 유사성을 측정하기 위해 코사인 유사도를 기반으로 명시적 형태의 정렬을 수행합니다. 둘째, 의미적으로 유사한 표현의 활성화 일관성을 보장하기 위해 거리 기반 인코더와 두 개의 모달리티 특화 디코더로 VL-SAE를 구성합니다. 다양한 VLM(예: CLIP, LLaVA)에 대한 실험은 VL-SAE가 시각-언어 정렬을 해석하고 향상시키는 데 있어 우수한 능력을 보여줍니다. 해석 측면에서는 시각과 언어 표현 간의 정렬을 개념과의 의미 비교를 통해 이해할 수 있습니다. 향상 측면에서는 개념 수준에서 시각-언어 표현을 정렬함으로써 정렬을 강화할 수 있으며, 이는 제로샷 이미지 분류와 환각 제거를 포함한 다운스트림 작업에서 성능 향상에 기여합니다. 코드는 https://github.com/ssfgunner/VL-SAE에서 확인할 수 있습니다.
English
The alignment of vision-language representations endows current
Vision-Language Models (VLMs) with strong multi-modal reasoning capabilities.
However, the interpretability of the alignment component remains uninvestigated
due to the difficulty in mapping the semantics of multi-modal representations
into a unified concept set. To address this problem, we propose VL-SAE, a
sparse autoencoder that encodes vision-language representations into its hidden
activations. Each neuron in its hidden layer correlates to a concept
represented by semantically similar images and texts, thereby interpreting
these representations with a unified concept set. To establish the
neuron-concept correlation, we encourage semantically similar representations
to exhibit consistent neuron activations during self-supervised training.
First, to measure the semantic similarity of multi-modal representations, we
perform their alignment in an explicit form based on cosine similarity. Second,
we construct the VL-SAE with a distance-based encoder and two modality-specific
decoders to ensure the activation consistency of semantically similar
representations. Experiments across multiple VLMs (e.g., CLIP, LLaVA)
demonstrate the superior capability of VL-SAE in interpreting and enhancing the
vision-language alignment. For interpretation, the alignment between vision and
language representations can be understood by comparing their semantics with
concepts. For enhancement, the alignment can be strengthened by aligning
vision-language representations at the concept level, contributing to
performance improvements in downstream tasks, including zero-shot image
classification and hallucination elimination. Codes are available at
https://github.com/ssfgunner/VL-SAE.