SCoCCA: Decomposição Esparsa de Conceitos Multimodal via Análise de Correlação Canônica

Resumo

A interpretação do raciocínio interno de modelos visão-linguagem é essencial para a implantação de IA em domínios críticos para a segurança. A explicabilidade baseada em conceitos fornece uma lente alinhada com o ser humano ao representar o comportamento de um modelo por meio de componentes semanticamente significativos. No entanto, os métodos existentes estão amplamente restritos a imagens e ignoram as interações multimodais. Os embeddings texto-imagem, como os produzidos pelo CLIP, sofrem com uma lacuna de modalidade, onde características visuais e textuais seguem distribuições distintas, limitando a interpretabilidade. A Análise de Correlação Canônica (CCA) oferece uma forma fundamentada de alinhar características de diferentes distribuições, mas não foi aproveitada para análise multimodal a nível de conceito. Mostramos que os objetivos da CCA e do InfoNCE estão intimamente relacionados, de modo que otimizar a CCA implicitamente otimiza o InfoNCE, fornecendo um mecanismo simples e livre de treinamento para melhorar o alinhamento multimodal sem afetar o objetivo pré-treinado do InfoNCE. Motivados por esta observação, acoplamos a explicabilidade baseada em conceitos com a CCA, introduzindo a Concept CCA (CoCCA), uma estrutura que alinha embeddings multimodais enquanto permite uma decomposição interpretável de conceitos. Nós a estendemos ainda mais e propomos a Sparse Concept CCA (SCoCCA), que impõe esparsidade para produzir conceitos mais disentangulados e discriminativos, facilitando uma melhor ativação, ablação e manipulação semântica. Nossa abordagem generaliza explicações baseadas em conceitos para embeddings multimodais e alcança desempenho de última geração na descoberta de conceitos, evidenciado por tarefas de reconstrução e manipulação, como a ablação de conceitos.

English

Interpreting the internal reasoning of vision-language models is essential for deploying AI in safety-critical domains. Concept-based explainability provides a human-aligned lens by representing a model's behavior through semantically meaningful components. However, existing methods are largely restricted to images and overlook the cross-modal interactions. Text-image embeddings, such as those produced by CLIP, suffer from a modality gap, where visual and textual features follow distinct distributions, limiting interpretability. Canonical Correlation Analysis (CCA) offers a principled way to align features from different distributions, but has not been leveraged for multi-modal concept-level analysis. We show that the objectives of CCA and InfoNCE are closely related, such that optimizing CCA implicitly optimizes InfoNCE, providing a simple, training-free mechanism to enhance cross-modal alignment without affecting the pre-trained InfoNCE objective. Motivated by this observation, we couple concept-based explainability with CCA, introducing Concept CCA (CoCCA), a framework that aligns cross-modal embeddings while enabling interpretable concept decomposition. We further extend it and propose Sparse Concept CCA (SCoCCA), which enforces sparsity to produce more disentangled and discriminative concepts, facilitating improved activation, ablation, and semantic manipulation. Our approach generalizes concept-based explanations to multi-modal embeddings and achieves state-of-the-art performance in concept discovery, evidenced by reconstruction and manipulation tasks such as concept ablation.

SCoCCA: Decomposição Esparsa de Conceitos Multimodal via Análise de Correlação Canônica

SCoCCA: Multi-modal Sparse Concept Decomposition via Canonical Correlation Analysis

Resumo

Support