VL-SAE: Interpretación y Mejora de la Alineación Visión-Lenguaje con un Conjunto Unificado de Conceptos
VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set
October 24, 2025
Autores: Shufan Shen, Junshu Sun, Qingming Huang, Shuhui Wang
cs.AI
Resumen
La alineación de las representaciones visión-lenguaje dota a los actuales Modelos de Visión y Lenguaje (VLMs) de sólidas capacidades de razonamiento multimodal. Sin embargo, la interpretabilidad del componente de alineación sigue sin investigarse debido a la dificultad de mapear la semántica de las representaciones multimodales en un conjunto unificado de conceptos. Para abordar este problema, proponemos VL-SAE, un autoencoder disperso que codifica las representaciones visión-lenguaje en sus activaciones ocultas. Cada neurona en su capa oculta se correlaciona con un concepto representado por imágenes y textos semánticamente similares, interpretando así estas representaciones con un conjunto unificado de conceptos. Para establecer la correlación neurona-concepto, fomentamos que las representaciones semánticamente similares exhiban activaciones neuronales consistentes durante el entrenamiento auto-supervisado. Primero, para medir la similitud semántica de las representaciones multimodales, realizamos su alineación de forma explícita basada en la similitud coseno. Segundo, construimos el VL-SAE con un codificador basado en distancia y dos decodificadores específicos por modalidad para garantizar la consistencia de activación de las representaciones semánticamente similares. Los experimentos en múltiples VLMs (por ejemplo, CLIP, LLaVA) demuestran la capacidad superior de VL-SAE para interpretar y mejorar la alineación visión-lenguaje. Para la interpretación, la alineación entre las representaciones visuales y lingüísticas puede entenderse comparando su semántica con conceptos. Para la mejora, la alineación puede fortalecerse alineando las representaciones visión-lenguaje a nivel conceptual, contribuyendo a mejoras de rendimiento en tareas posteriores, incluyendo la clasificación de imágenes zero-shot y la eliminación de alucinaciones. Los códigos están disponibles en https://github.com/ssfgunner/VL-SAE.
English
The alignment of vision-language representations endows current
Vision-Language Models (VLMs) with strong multi-modal reasoning capabilities.
However, the interpretability of the alignment component remains uninvestigated
due to the difficulty in mapping the semantics of multi-modal representations
into a unified concept set. To address this problem, we propose VL-SAE, a
sparse autoencoder that encodes vision-language representations into its hidden
activations. Each neuron in its hidden layer correlates to a concept
represented by semantically similar images and texts, thereby interpreting
these representations with a unified concept set. To establish the
neuron-concept correlation, we encourage semantically similar representations
to exhibit consistent neuron activations during self-supervised training.
First, to measure the semantic similarity of multi-modal representations, we
perform their alignment in an explicit form based on cosine similarity. Second,
we construct the VL-SAE with a distance-based encoder and two modality-specific
decoders to ensure the activation consistency of semantically similar
representations. Experiments across multiple VLMs (e.g., CLIP, LLaVA)
demonstrate the superior capability of VL-SAE in interpreting and enhancing the
vision-language alignment. For interpretation, the alignment between vision and
language representations can be understood by comparing their semantics with
concepts. For enhancement, the alignment can be strengthened by aligning
vision-language representations at the concept level, contributing to
performance improvements in downstream tasks, including zero-shot image
classification and hallucination elimination. Codes are available at
https://github.com/ssfgunner/VL-SAE.