ChatPaper.aiChatPaper

VL-SAE: Interpretação e Aprimoramento do Alinhamento Visão-Linguagem com um Conjunto Unificado de Conceitos

VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set

October 24, 2025
Autores: Shufan Shen, Junshu Sun, Qingming Huang, Shuhui Wang
cs.AI

Resumo

O alinhamento das representações visão-linguagem confere aos atuais Modelos de Visão-Linguagem (VLMs) fortes capacidades de raciocínio multimodal. No entanto, a interpretabilidade do componente de alinhamento permanece inexplorada devido à dificuldade de mapear a semântica das representações multimodais para um conjunto unificado de conceitos. Para resolver este problema, propomos o VL-SAE, um autoencoder esparso que codifica as representações visão-linguagem nas suas ativações ocultas. Cada neurônio na sua camada oculta correlaciona-se com um conceito representado por imagens e textos semanticamente semelhantes, interpretando assim estas representações com um conjunto unificado de conceitos. Para estabelecer a correlação neurônio-conceito, incentivamos que representações semanticamente semelhantes exibam ativações neuronais consistentes durante o treino auto supervisionado. Primeiro, para medir a similaridade semântica das representações multimodais, realizamos o seu alinhamento de forma explícita com base na similaridade de cosseno. Segundo, construímos o VL-SAE com um codificador baseado em distância e dois descodificadores específicos por modalidade para garantir a consistência de ativação de representações semanticamente semelhantes. Experiências com vários VLMs (por exemplo, CLIP, LLaVA) demonstram a capacidade superior do VL-SAE em interpretar e melhorar o alinhamento visão-linguagem. Para interpretação, o alinhamento entre as representações visão e linguagem pode ser compreendido comparando as suas semânticas com conceitos. Para melhoria, o alinhamento pode ser fortalecido alinhando as representações visão-linguagem ao nível conceptual, contribuindo para melhorias de desempenho em tarefas downstream, incluindo classificação de imagens *zero-shot* e eliminação de alucinações. Os códigos estão disponíveis em https://github.com/ssfgunner/VL-SAE.
English
The alignment of vision-language representations endows current Vision-Language Models (VLMs) with strong multi-modal reasoning capabilities. However, the interpretability of the alignment component remains uninvestigated due to the difficulty in mapping the semantics of multi-modal representations into a unified concept set. To address this problem, we propose VL-SAE, a sparse autoencoder that encodes vision-language representations into its hidden activations. Each neuron in its hidden layer correlates to a concept represented by semantically similar images and texts, thereby interpreting these representations with a unified concept set. To establish the neuron-concept correlation, we encourage semantically similar representations to exhibit consistent neuron activations during self-supervised training. First, to measure the semantic similarity of multi-modal representations, we perform their alignment in an explicit form based on cosine similarity. Second, we construct the VL-SAE with a distance-based encoder and two modality-specific decoders to ensure the activation consistency of semantically similar representations. Experiments across multiple VLMs (e.g., CLIP, LLaVA) demonstrate the superior capability of VL-SAE in interpreting and enhancing the vision-language alignment. For interpretation, the alignment between vision and language representations can be understood by comparing their semantics with concepts. For enhancement, the alignment can be strengthened by aligning vision-language representations at the concept level, contributing to performance improvements in downstream tasks, including zero-shot image classification and hallucination elimination. Codes are available at https://github.com/ssfgunner/VL-SAE.
PDF41February 7, 2026