SEM : Modulation par intégration parcimonieuse pour le débiaisage a posteriori des modèles vision-langage

Résumé

Les modèles qui relient la vision et le langage, tels que CLIP, sont des composants clés de l'IA multimodale, mais leurs données d'entraînement à grande échelle et non filtrées introduisent des biais sociaux et fallacieux importants. Les méthodes existantes de réduction des biais a posteriori opèrent souvent directement dans l'espace d'embedding dense de CLIP, où les informations liées aux biais et à la tâche sont fortement entremêlées. Cet enchevêtrement limite leur capacité à éliminer les biais sans dégrader la fidélité sémantique. Dans ce travail, nous proposons la Modulation par Embedding Sparse (SEM), un cadre de réduction des biais a posteriori et sans apprentissage spécifique qui opère dans un espace latent d'Autoencodeur Sparse (SAE). En décomposant les embeddings textuels de CLIP en caractéristiques désentrelacées, SEM identifie et module les neurones liés aux biais tout en préservant ceux pertinents pour la requête. Cela permet des interventions non linéaires plus précises. Sur quatre bases de données de référence et deux architectures CLIP, SEM obtient des gains substantiels en équité pour la recherche d'information et la classification sans apprentissage. Nos résultats démontrent que les représentations latentes sparse constituent une base efficace pour la réduction des biais a posteriori des modèles vision-langage.

English

Models that bridge vision and language, such as CLIP, are key components of multimodal AI, yet their large-scale, uncurated training data introduce severe social and spurious biases. Existing post-hoc debiasing methods often operate directly in the dense CLIP embedding space, where bias and task-relevant information are highly entangled. This entanglement limits their ability to remove bias without degrading semantic fidelity. In this work, we propose Sparse Embedding Modulation (SEM), a post-hoc, zero-shot debiasing framework that operates in a Sparse Autoencoder (SAE) latent space. By decomposing CLIP text embeddings into disentangled features, SEM identifies and modulates bias-relevant neurons while preserving query-relevant ones. This enables more precise, non-linear interventions. Across four benchmark datasets and two CLIP backbones, SEM achieves substantial fairness gains in retrieval and zero-shot classification. Our results demonstrate that sparse latent representations provide an effective foundation for post-hoc debiasing of vision-language models.

SEM : Modulation par intégration parcimonieuse pour le débiaisage a posteriori des modèles vision-langage

SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language Models

Résumé

Support