SCoCCA: Descomposición Escasa de Conceptos Multimodal mediante Análisis de Correlación Canónica

Resumen

La interpretación del razonamiento interno de los modelos de visión y lenguaje es esencial para desplegar la IA en dominios críticos para la seguridad. La explicabilidad basada en conceptos proporciona una lente alineada con el ser humano al representar el comportamiento de un modelo a través de componentes semánticamente significativos. Sin embargo, los métodos existentes se limitan en gran medida a las imágenes y pasan por alto las interacciones multimodales. Los *embeddings* de texto e imagen, como los producidos por CLIP, sufren de una brecha de modalidad, donde las características visuales y textuales siguen distribuciones distintas, lo que limita la interpretabilidad. El Análisis de Correlación Canónica (CCA) ofrece una forma fundamentada de alinear características de diferentes distribuciones, pero no ha sido aprovechado para el análisis a nivel de conceptos multimodales. Demostramos que los objetivos de CCA e InfoNCE están estrechamente relacionados, de modo que optimizar CCA optimiza implícitamente InfoNCE, proporcionando un mecanismo simple y sin entrenamiento para mejorar la alineación multimodal sin afectar el objetivo InfoNCE preentrenado. Motivados por esta observación, acoplamos la explicabilidad basada en conceptos con CCA, introduciendo Concept CCA (CoCCA), un marco que alinea los *embeddings* multimodales a la vez que permite una descomposición interpretable de conceptos. Lo extendemos aún más y proponemos Sparse Concept CCA (SCoCCA), que aplica *sparsity* para producir conceptos más disentangulados y discriminativos, facilitando una activación, una ablación y una manipulación semántica mejoradas. Nuestro enfoque generaliza las explicaciones basadas en conceptos a los *embeddings* multimodales y logra un rendimiento de vanguardia en el descubrimiento de conceptos, evidenciado por tareas de reconstrucción y manipulación como la ablación de conceptos.

English

Interpreting the internal reasoning of vision-language models is essential for deploying AI in safety-critical domains. Concept-based explainability provides a human-aligned lens by representing a model's behavior through semantically meaningful components. However, existing methods are largely restricted to images and overlook the cross-modal interactions. Text-image embeddings, such as those produced by CLIP, suffer from a modality gap, where visual and textual features follow distinct distributions, limiting interpretability. Canonical Correlation Analysis (CCA) offers a principled way to align features from different distributions, but has not been leveraged for multi-modal concept-level analysis. We show that the objectives of CCA and InfoNCE are closely related, such that optimizing CCA implicitly optimizes InfoNCE, providing a simple, training-free mechanism to enhance cross-modal alignment without affecting the pre-trained InfoNCE objective. Motivated by this observation, we couple concept-based explainability with CCA, introducing Concept CCA (CoCCA), a framework that aligns cross-modal embeddings while enabling interpretable concept decomposition. We further extend it and propose Sparse Concept CCA (SCoCCA), which enforces sparsity to produce more disentangled and discriminative concepts, facilitating improved activation, ablation, and semantic manipulation. Our approach generalizes concept-based explanations to multi-modal embeddings and achieves state-of-the-art performance in concept discovery, evidenced by reconstruction and manipulation tasks such as concept ablation.

SCoCCA: Descomposición Escasa de Conceptos Multimodal mediante Análisis de Correlación Canónica

SCoCCA: Multi-modal Sparse Concept Decomposition via Canonical Correlation Analysis

Resumen

Support