SCoCCA: Мультимодальное разреженное концептуальное разложение посредством канонического корреляционного анализа

Аннотация

Интерпретация внутренних механизмов рассуждений визуально-языковых моделей крайне важна для применения ИИ в критически важных для безопасности областях. Концептуальная объяснимость предоставляет человеко-ориентированную перспективу, представляя поведение модели через семантически значимые компоненты. Однако существующие методы в основном ограничены изображениями и упускают из виду кросс-модальные взаимодействия. Текст-изображение эмбеддинги, такие как создаваемые CLIP, страдают от модального разрыва, когда визуальные и текстовые признаки следуют разным распределениям, что ограничивает интерпретируемость. Канонический корреляционный анализ (CCA) предлагает принципиальный способ выравнивания признаков из различных распределений, но не использовался для мультимодального анализа на уровне концептов. Мы показываем, что цели CCA и InfoNCE тесно связаны, так что оптимизация CCA неявно оптимизирует InfoNCE, предоставляя простой, не требующий дообучения механизм для улучшения кросс-модального выравнивания без воздействия на предварительно обученную цель InfoNCE. Мотивированные этим наблюдением, мы объединяем концептуальную объяснимость с CCA, вводя Concept CCA (CoCCA) — фреймворк, который выравнивает кросс-модальные эмбеддинги, одновременно обеспечивая интерпретируемую концептуальную декомпозицию. Мы далее расширяем его и предлагаем Sparse Concept CCA (SCoCCA), который обеспечивает разреженность для получения более разъединенных и дискриминативных концептов, способствуя улучшенной активации, абляции и семантическому манипулированию. Наш подход обобщает концептуальные объяснения на мультимодальные эмбеддинги и достигает передовой производительности в обнаружении концептов, что подтверждается задачами реконструкции и манипулирования, такими как концептуальная абляция.

English

Interpreting the internal reasoning of vision-language models is essential for deploying AI in safety-critical domains. Concept-based explainability provides a human-aligned lens by representing a model's behavior through semantically meaningful components. However, existing methods are largely restricted to images and overlook the cross-modal interactions. Text-image embeddings, such as those produced by CLIP, suffer from a modality gap, where visual and textual features follow distinct distributions, limiting interpretability. Canonical Correlation Analysis (CCA) offers a principled way to align features from different distributions, but has not been leveraged for multi-modal concept-level analysis. We show that the objectives of CCA and InfoNCE are closely related, such that optimizing CCA implicitly optimizes InfoNCE, providing a simple, training-free mechanism to enhance cross-modal alignment without affecting the pre-trained InfoNCE objective. Motivated by this observation, we couple concept-based explainability with CCA, introducing Concept CCA (CoCCA), a framework that aligns cross-modal embeddings while enabling interpretable concept decomposition. We further extend it and propose Sparse Concept CCA (SCoCCA), which enforces sparsity to produce more disentangled and discriminative concepts, facilitating improved activation, ablation, and semantic manipulation. Our approach generalizes concept-based explanations to multi-modal embeddings and achieves state-of-the-art performance in concept discovery, evidenced by reconstruction and manipulation tasks such as concept ablation.

SCoCCA: Мультимодальное разреженное концептуальное разложение посредством канонического корреляционного анализа

SCoCCA: Multi-modal Sparse Concept Decomposition via Canonical Correlation Analysis

Аннотация

Support