SCoCCA : Décomposition parcimonieuse multi-modale de concepts par analyse des corrélations canoniques

Résumé

L'interprétation du raisonnement interne des modèles vision-langage est essentielle pour le déploiement de l'IA dans des domaines critiques pour la sécurité. L'explicabilité par concepts offre une perspective alignée avec l'humain en représentant le comportement d'un modèle à travers des composants sémantiquement significatifs. Cependant, les méthodes existantes se limitent largement aux images et négligent les interactions multimodales. Les plongements texte-image, tels que ceux produits par CLIP, souffrent d'un écart de modalité, où les caractéristiques visuelles et textuelles suivent des distributions distinctes, limitant ainsi l'interprétabilité. L'Analyse des Corrélations Canoniques (CCA) offre une approche rigoureuse pour aligner les caractéristiques de distributions différentes, mais n'a pas été exploitée pour l'analyse multi-modale au niveau des concepts. Nous montrons que les objectifs de la CCA et de InfoNCE sont étroitement liés, de sorte qu'optimiser la CCA optimise implicitement InfoNCE, fournissant un mécanisme simple, sans entraînement supplémentaire, pour améliorer l'alignement multimodal sans affecter l'objectif InfoNCE pré-entraîné. Motivés par cette observation, nous couplons l'explicabilité par concepts avec la CCA, en introduisant Concept CCA (CoCCA), un cadre qui aligne les plongements multimodaux tout en permettant une décomposition interprétable en concepts. Nous l'étendons ensuite et proposons Sparse Concept CCA (SCoCCA), qui impose de la parcimonie pour produire des concepts plus discriminants et dissociés, facilitant une amélioration de l'activation, de l'ablation et de la manipulation sémantique. Notre approche généralise les explications basées sur les concepts aux plongements multimodaux et atteint des performances de pointe en découverte de concepts, comme en témoignent les tâches de reconstruction et de manipulation telles que l'ablation de concepts.

English

Interpreting the internal reasoning of vision-language models is essential for deploying AI in safety-critical domains. Concept-based explainability provides a human-aligned lens by representing a model's behavior through semantically meaningful components. However, existing methods are largely restricted to images and overlook the cross-modal interactions. Text-image embeddings, such as those produced by CLIP, suffer from a modality gap, where visual and textual features follow distinct distributions, limiting interpretability. Canonical Correlation Analysis (CCA) offers a principled way to align features from different distributions, but has not been leveraged for multi-modal concept-level analysis. We show that the objectives of CCA and InfoNCE are closely related, such that optimizing CCA implicitly optimizes InfoNCE, providing a simple, training-free mechanism to enhance cross-modal alignment without affecting the pre-trained InfoNCE objective. Motivated by this observation, we couple concept-based explainability with CCA, introducing Concept CCA (CoCCA), a framework that aligns cross-modal embeddings while enabling interpretable concept decomposition. We further extend it and propose Sparse Concept CCA (SCoCCA), which enforces sparsity to produce more disentangled and discriminative concepts, facilitating improved activation, ablation, and semantic manipulation. Our approach generalizes concept-based explanations to multi-modal embeddings and achieves state-of-the-art performance in concept discovery, evidenced by reconstruction and manipulation tasks such as concept ablation.

SCoCCA : Décomposition parcimonieuse multi-modale de concepts par analyse des corrélations canoniques

SCoCCA: Multi-modal Sparse Concept Decomposition via Canonical Correlation Analysis

Résumé

Support