SCoCCA: Multi-modale Sparse Concept Ontbinding via Canonische Correlatie Analyse

Samenvatting

Het interpreteren van de interne redenering van visie-taalmodellen is essentieel voor de inzet van AI in veiligheidskritieke domeinen. Conceptgebaseerde verklaarbaarheid biedt een mensgericht perspectief door het gedrag van een model weer te geven via semantisch betekenisvolle componenten. Bestaande methoden zijn echter grotendeels beperkt tot afbeeldingen en negeren de cross-modale interacties. Tekst-afbeelding-embeddingen, zoals die gegenereerd door CLIP, lijden onder een modaliteitskloof, waarbij visuele en tekstuele kenmerken verschillende verdelingen volgen, wat de interpreteerbaarheid beperkt. Canonical Correlation Analysis (CCA) biedt een principiële manier om kenmerken uit verschillende verdelingen uit te lijnen, maar is nog niet benut voor multi-modale conceptanalyse op conceptniveau. Wij tonen aan dat de doelstellingen van CCA en InfoNCE nauw verwant zijn, zodanig dat het optimaliseren van CCA impliciet InfoNCE optimaliseert, wat een eenvoudig, trainingsvrij mechanisme biedt om de cross-modale uitlijning te verbeteren zonder het vooraf getrainde InfoNCE-doel aan te tasten. Gemotiveerd door deze observatie koppelen we conceptgebaseerde verklaarbaarheid aan CCA en introduceren we Concept CCA (CoCCA), een raamwerk dat cross-modale embeddingen uitlijnt en tegelijkertijd interpreteerbare conceptdecompositie mogelijk maakt. We breiden dit verder uit en stellen Sparse Concept CCA (SCoCCA) voor, dat sparsity afdwingt om meer ontvlochten en onderscheidende concepten te produceren, wat verbeterde activatie, ablatie en semantische manipulatie vergemakkelijkt. Onze aanpak generaliseert conceptgebaseerde verklaringen naar multi-modale embeddingen en behaalt state-of-the-art prestaties in conceptontdekking, aangetoond door reconstructie- en manipulatietaken zoals conceptablatie.

English

Interpreting the internal reasoning of vision-language models is essential for deploying AI in safety-critical domains. Concept-based explainability provides a human-aligned lens by representing a model's behavior through semantically meaningful components. However, existing methods are largely restricted to images and overlook the cross-modal interactions. Text-image embeddings, such as those produced by CLIP, suffer from a modality gap, where visual and textual features follow distinct distributions, limiting interpretability. Canonical Correlation Analysis (CCA) offers a principled way to align features from different distributions, but has not been leveraged for multi-modal concept-level analysis. We show that the objectives of CCA and InfoNCE are closely related, such that optimizing CCA implicitly optimizes InfoNCE, providing a simple, training-free mechanism to enhance cross-modal alignment without affecting the pre-trained InfoNCE objective. Motivated by this observation, we couple concept-based explainability with CCA, introducing Concept CCA (CoCCA), a framework that aligns cross-modal embeddings while enabling interpretable concept decomposition. We further extend it and propose Sparse Concept CCA (SCoCCA), which enforces sparsity to produce more disentangled and discriminative concepts, facilitating improved activation, ablation, and semantic manipulation. Our approach generalizes concept-based explanations to multi-modal embeddings and achieves state-of-the-art performance in concept discovery, evidenced by reconstruction and manipulation tasks such as concept ablation.

SCoCCA: Multi-modale Sparse Concept Ontbinding via Canonische Correlatie Analyse

SCoCCA: Multi-modal Sparse Concept Decomposition via Canonical Correlation Analysis

Samenvatting

Support