SCoCCA: Scomposizione Sparsa Multi-modale di Concetti tramite Analisi delle Correlazioni Canoniche

Abstract

Interpretare il ragionamento interno dei modelli visione-linguaggio è essenziale per impiegare l'IA in domini critici per la sicurezza. La spiegabilità basata su concetti fornisce una lente allineata all'umano rappresentando il comportamento di un modello attraverso componenti semanticamente significative. Tuttavia, i metodi esistenti sono in gran parte limitati alle immagini e trascurano le interazioni cross-modali. Gli embedding testo-immagine, come quelli prodotti da CLIP, soffrono di un divario modale, dove le feature visive e testuali seguono distribuzioni distinte, limitando l'interpretabilità. L'Analisi di Correlazione Canonica (CCA) offre un modo rigoroso per allineare feature provenienti da distribuzioni diverse, ma non è stata sfruttata per analisi multi-modale a livello concettuale. Dimostriamo che gli obiettivi di CCA e InfoNCE sono strettamente correlati, in modo tale che ottimizzare CCA ottimizza implicitamente InfoNCE, fornendo un meccanismo semplice, senza necessità di training, per migliorare l'allineamento cross-modale senza influenzare l'obiettivo InfoNCE pre-addestrato. Motivati da questa osservazione, accoppiamo la spiegabilità basata su concetti con la CCA, introducendo Concept CCA (CoCCA), un framework che allinea gli embedding cross-modali consentendo al contempo una scomposizione concettuale interpretabile. La estendiamo ulteriormente e proponiamo Sparse Concept CCA (SCoCCA), che applica vincoli di sparsità per produrre concetti più disaccoppiati e discriminativi, facilitando un miglioramento nell'attivazione, nell'ablazione e nella manipolazione semantica. Il nostro approccio generalizza le spiegazioni basate su concetti agli embedding multi-modali e raggiunge prestazioni allo stato dell'arte nella scoperta di concetti, come evidenziato da compiti di ricostruzione e manipolazione come l'ablazione concettuale.

English

Interpreting the internal reasoning of vision-language models is essential for deploying AI in safety-critical domains. Concept-based explainability provides a human-aligned lens by representing a model's behavior through semantically meaningful components. However, existing methods are largely restricted to images and overlook the cross-modal interactions. Text-image embeddings, such as those produced by CLIP, suffer from a modality gap, where visual and textual features follow distinct distributions, limiting interpretability. Canonical Correlation Analysis (CCA) offers a principled way to align features from different distributions, but has not been leveraged for multi-modal concept-level analysis. We show that the objectives of CCA and InfoNCE are closely related, such that optimizing CCA implicitly optimizes InfoNCE, providing a simple, training-free mechanism to enhance cross-modal alignment without affecting the pre-trained InfoNCE objective. Motivated by this observation, we couple concept-based explainability with CCA, introducing Concept CCA (CoCCA), a framework that aligns cross-modal embeddings while enabling interpretable concept decomposition. We further extend it and propose Sparse Concept CCA (SCoCCA), which enforces sparsity to produce more disentangled and discriminative concepts, facilitating improved activation, ablation, and semantic manipulation. Our approach generalizes concept-based explanations to multi-modal embeddings and achieves state-of-the-art performance in concept discovery, evidenced by reconstruction and manipulation tasks such as concept ablation.

SCoCCA: Scomposizione Sparsa Multi-modale di Concetti tramite Analisi delle Correlazioni Canoniche

SCoCCA: Multi-modal Sparse Concept Decomposition via Canonical Correlation Analysis

Abstract

Support