SCoCCA: Multimodale Sparse Concept Zerlegung mittels Kanonischer Korrelationsanalyse

Zusammenfassung

Die Interpretation der internen Entscheidungsprozesse von Vision-Language-Modellen ist entscheidend für den Einsatz von KI in sicherheitskritischen Bereichen. Konzeptbasierte Erklärbarkeit bietet eine menschenorientierte Betrachtungsweise, indem sie das Verhalten eines Modells durch semantisch bedeutungsvolle Komponenten abbildet. Bestehende Methoden beschränken sich jedoch weitgehend auf Bilder und vernachlässigen cross-modale Interaktionen. Text-Bild-Einbettungen, wie sie beispielsweise von CLIP erzeugt werden, leiden unter einer Modalitätslücke, bei der visuelle und textuelle Merkmale unterschiedlichen Verteilungen folgen, was die Interpretierbarkeit einschränkt. Die Kanonische Korrelationsanalyse (CCA) bietet einen prinzipienbasierten Ansatz, um Merkmale aus verschiedenen Verteilungen auszurichten, wurde jedoch bisher nicht für eine multimodale konzeptbasierte Analyse genutzt. Wir zeigen, dass die Zielfunktionen von CCA und InfoNCE eng verwandt sind, sodass die Optimierung von CCA implizit auch InfoNCE optimiert. Dies bietet einen einfachen, trainingsfreien Mechanismus zur Verbesserung der cross-modalen Ausrichtung, ohne das vortrainierte InfoNCE-Ziel zu beeinflussen. Ausgehend von dieser Beobachtung kombinieren wir konzeptbasierte Erklärbarkeit mit CCA und führen Concept CCA (CoCCA) ein – ein Framework, das cross-modale Einbettungen ausrichtet und gleichzeitig eine interpretierbare Konzeptzerlegung ermöglicht. Wir erweitern diesen Ansatz weiter und schlagen Sparse Concept CCA (SCoCCA) vor, das Sparsity erzwingt, um stärker entflochtene und diskriminativere Konzepte zu erzeugen, was verbesserte Aktivierungs-, Ablations- und semantische Manipulationsanalysen ermöglicht. Unser Ansatz verallgemeinert konzeptbasierte Erklärungen auf multimodale Einbettungen und erzielt state-of-the-art Leistung in der Konzeptentdeckung, was durch Rekonstruktions- und Manipulationsaufgaben wie Konzeptablation belegt wird.

English

Interpreting the internal reasoning of vision-language models is essential for deploying AI in safety-critical domains. Concept-based explainability provides a human-aligned lens by representing a model's behavior through semantically meaningful components. However, existing methods are largely restricted to images and overlook the cross-modal interactions. Text-image embeddings, such as those produced by CLIP, suffer from a modality gap, where visual and textual features follow distinct distributions, limiting interpretability. Canonical Correlation Analysis (CCA) offers a principled way to align features from different distributions, but has not been leveraged for multi-modal concept-level analysis. We show that the objectives of CCA and InfoNCE are closely related, such that optimizing CCA implicitly optimizes InfoNCE, providing a simple, training-free mechanism to enhance cross-modal alignment without affecting the pre-trained InfoNCE objective. Motivated by this observation, we couple concept-based explainability with CCA, introducing Concept CCA (CoCCA), a framework that aligns cross-modal embeddings while enabling interpretable concept decomposition. We further extend it and propose Sparse Concept CCA (SCoCCA), which enforces sparsity to produce more disentangled and discriminative concepts, facilitating improved activation, ablation, and semantic manipulation. Our approach generalizes concept-based explanations to multi-modal embeddings and achieves state-of-the-art performance in concept discovery, evidenced by reconstruction and manipulation tasks such as concept ablation.

SCoCCA: Multimodale Sparse Concept Zerlegung mittels Kanonischer Korrelationsanalyse

SCoCCA: Multi-modal Sparse Concept Decomposition via Canonical Correlation Analysis

Zusammenfassung

Support