VL-SAE: Interpretación y Mejora de la Alineación Visión-Lenguaje con un Conjunto Unificado de Conceptos

Resumen

La alineación de las representaciones visión-lenguaje dota a los actuales Modelos de Visión y Lenguaje (VLMs) de sólidas capacidades de razonamiento multimodal. Sin embargo, la interpretabilidad del componente de alineación sigue sin investigarse debido a la dificultad de mapear la semántica de las representaciones multimodales en un conjunto unificado de conceptos. Para abordar este problema, proponemos VL-SAE, un autoencoder disperso que codifica las representaciones visión-lenguaje en sus activaciones ocultas. Cada neurona en su capa oculta se correlaciona con un concepto representado por imágenes y textos semánticamente similares, interpretando así estas representaciones con un conjunto unificado de conceptos. Para establecer la correlación neurona-concepto, fomentamos que las representaciones semánticamente similares exhiban activaciones neuronales consistentes durante el entrenamiento auto-supervisado. Primero, para medir la similitud semántica de las representaciones multimodales, realizamos su alineación de forma explícita basada en la similitud coseno. Segundo, construimos el VL-SAE con un codificador basado en distancia y dos decodificadores específicos por modalidad para garantizar la consistencia de activación de las representaciones semánticamente similares. Los experimentos en múltiples VLMs (por ejemplo, CLIP, LLaVA) demuestran la capacidad superior de VL-SAE para interpretar y mejorar la alineación visión-lenguaje. Para la interpretación, la alineación entre las representaciones visuales y lingüísticas puede entenderse comparando su semántica con conceptos. Para la mejora, la alineación puede fortalecerse alineando las representaciones visión-lenguaje a nivel conceptual, contribuyendo a mejoras de rendimiento en tareas posteriores, incluyendo la clasificación de imágenes zero-shot y la eliminación de alucinaciones. Los códigos están disponibles en https://github.com/ssfgunner/VL-SAE.

English

The alignment of vision-language representations endows current Vision-Language Models (VLMs) with strong multi-modal reasoning capabilities. However, the interpretability of the alignment component remains uninvestigated due to the difficulty in mapping the semantics of multi-modal representations into a unified concept set. To address this problem, we propose VL-SAE, a sparse autoencoder that encodes vision-language representations into its hidden activations. Each neuron in its hidden layer correlates to a concept represented by semantically similar images and texts, thereby interpreting these representations with a unified concept set. To establish the neuron-concept correlation, we encourage semantically similar representations to exhibit consistent neuron activations during self-supervised training. First, to measure the semantic similarity of multi-modal representations, we perform their alignment in an explicit form based on cosine similarity. Second, we construct the VL-SAE with a distance-based encoder and two modality-specific decoders to ensure the activation consistency of semantically similar representations. Experiments across multiple VLMs (e.g., CLIP, LLaVA) demonstrate the superior capability of VL-SAE in interpreting and enhancing the vision-language alignment. For interpretation, the alignment between vision and language representations can be understood by comparing their semantics with concepts. For enhancement, the alignment can be strengthened by aligning vision-language representations at the concept level, contributing to performance improvements in downstream tasks, including zero-shot image classification and hallucination elimination. Codes are available at https://github.com/ssfgunner/VL-SAE.

VL-SAE: Interpretación y Mejora de la Alineación Visión-Lenguaje con un Conjunto Unificado de Conceptos

VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set

Resumen

Support