ChatPaper.aiChatPaper

VL-SAE: Интерпретация и улучшение согласования между зрением и языком с помощью унифицированного набора концепций

VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set

October 24, 2025
Авторы: Shufan Shen, Junshu Sun, Qingming Huang, Shuhui Wang
cs.AI

Аннотация

Совмещение визуально-языковых представлений наделяет современные визуально-языковые модели (VLM) мощными возможностями мультимодального вывода. Однако интерпретируемость компонента совмещения остаётся неисследованной из-за сложности отображения семантики мультимодальных представлений в унифицированный набор концептов. Для решения этой проблемы мы предлагаем VL-SAE — разреженный автоэнкодер, кодирующий визуально-языковые представления в скрытые активации. Каждый нейрон его скрытого слоя коррелирует с концептом, представленным семантически схожими изображениями и текстами, что позволяет интерпретировать эти представления с помощью единого набора концептов. Для установления нейрон-концептной корреляции мы стимулируем семантически схожие представления к согласованной активации нейронов в процессе самообучения. Во-первых, для измерения семантического сходства мультимодальных представлений мы выполняем их явное совмещение на основе косинусного сходства. Во-вторых, мы конструируем VL-SAE с дистанционным энкодером и двумя модально-специфичными декодерами для обеспечения согласованности активаций семантически схожих представлений. Эксперименты на различных VLM (например, CLIP, LLaVA) демонстрируют превосходную способность VL-SAE в интерпретации и улучшении визуально-языкового совмещения. Для интерпретации совмещение визуальных и языковых представлений может быть понято через сравнение их семантики с концептами. Для улучшения совмещение может быть усилено на концептуальном уровне, что способствует повышению производительности в downstream-задачах, включая zero-shot классификацию изображений и устранение галлюцинаций. Код доступен по адресу https://github.com/ssfgunner/VL-SAE.
English
The alignment of vision-language representations endows current Vision-Language Models (VLMs) with strong multi-modal reasoning capabilities. However, the interpretability of the alignment component remains uninvestigated due to the difficulty in mapping the semantics of multi-modal representations into a unified concept set. To address this problem, we propose VL-SAE, a sparse autoencoder that encodes vision-language representations into its hidden activations. Each neuron in its hidden layer correlates to a concept represented by semantically similar images and texts, thereby interpreting these representations with a unified concept set. To establish the neuron-concept correlation, we encourage semantically similar representations to exhibit consistent neuron activations during self-supervised training. First, to measure the semantic similarity of multi-modal representations, we perform their alignment in an explicit form based on cosine similarity. Second, we construct the VL-SAE with a distance-based encoder and two modality-specific decoders to ensure the activation consistency of semantically similar representations. Experiments across multiple VLMs (e.g., CLIP, LLaVA) demonstrate the superior capability of VL-SAE in interpreting and enhancing the vision-language alignment. For interpretation, the alignment between vision and language representations can be understood by comparing their semantics with concepts. For enhancement, the alignment can be strengthened by aligning vision-language representations at the concept level, contributing to performance improvements in downstream tasks, including zero-shot image classification and hallucination elimination. Codes are available at https://github.com/ssfgunner/VL-SAE.
PDF31December 1, 2025