SEM: Modulazione dell'Embedding Sparsa per la De-biasing Post-Hoc dei Modelli Visione-Linguaggio

Abstract

I modelli che collegano visione e linguaggio, come CLIP, sono componenti chiave dell'IA multimodale, ma i loro dati di addestramento su larga scala e non curati introducono severi bias sociali e spurii. I metodi di debiasing post-hoc esistenti operano spesso direttamente nello spazio denso di embedding di CLIP, dove le informazioni relative al bias e al compito sono fortemente intrecciate. Questo intreccio limita la loro capacità di rimuovere il bias senza degradare la fedeltà semantica. In questo lavoro, proponiamo la Modulazione degli Embedding Sparsi (SEM), un framework di debiasing post-hoc e zero-shot che opera in uno spazio latente di Autoencoder Sparse (SAE). Scomponendo gli embedding testuali di CLIP in caratteristiche disaccoppiate, SEM identifica e modula i neuroni rilevanti per il bias preservando quelli rilevanti per la query. Ciò consente interventi non lineari più precisi. Su quattro dataset di benchmark e due backbone CLIP, SEM ottiene guadagni sostanziali in equità nel retrieval e nella classificazione zero-shot. I nostri risultati dimostrano che le rappresentazioni latenti sparse forniscono una base efficace per il debiasing post-hoc dei modelli visione-linguaggio.

English

Models that bridge vision and language, such as CLIP, are key components of multimodal AI, yet their large-scale, uncurated training data introduce severe social and spurious biases. Existing post-hoc debiasing methods often operate directly in the dense CLIP embedding space, where bias and task-relevant information are highly entangled. This entanglement limits their ability to remove bias without degrading semantic fidelity. In this work, we propose Sparse Embedding Modulation (SEM), a post-hoc, zero-shot debiasing framework that operates in a Sparse Autoencoder (SAE) latent space. By decomposing CLIP text embeddings into disentangled features, SEM identifies and modulates bias-relevant neurons while preserving query-relevant ones. This enables more precise, non-linear interventions. Across four benchmark datasets and two CLIP backbones, SEM achieves substantial fairness gains in retrieval and zero-shot classification. Our results demonstrate that sparse latent representations provide an effective foundation for post-hoc debiasing of vision-language models.

SEM: Modulazione dell'Embedding Sparsa per la De-biasing Post-Hoc dei Modelli Visione-Linguaggio

SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language Models

Abstract

Support