SEM: Sparse Embedding Modulation zur nachträglichen Entfernung von Verzerrungen in Bild-Sprache-Modellen

Zusammenfassung

Modelle, die Vision und Sprache verbinden, wie CLIP, sind Schlüsselkomponenten multimodaler KI, doch ihre groß angelegten, unkuratierten Trainingsdaten führen zu erheblichen sozialen und scheinkausalen Verzerrungen (Bias). Bestehende nachträgliche (Post-hoc-)Debiasing-Methoden operieren oft direkt im dichten CLIP-Einbettungsraum, in dem Bias und aufgabenrelevante Informationen stark verwoben sind. Diese Verflechtung schränkt ihre Fähigkeit ein, Bias zu entfernen, ohne die semantische Treue zu beeinträchtigen. In dieser Arbeit schlagen wir Sparse Embedding Modulation (SEM) vor, einen nachträglichen Zero-Shot-Debiasing-Rahmen, der in einem latenten Raum eines Sparse Autoencoders (SAE) arbeitet. Indem CLIP-Text-Einbettungen in entflochtene Merkmale zerlegt werden, identifiziert und moduliert SEM biasrelevante Neuronen, während abfragerelevante erhalten bleiben. Dies ermöglicht präzisere, nichtlineare Eingriffe. In vier Benchmark-Datensätzen und mit zwei CLIP-Backbones erzielt SEM erhebliche Verbesserungen der Fairness bei Retrieval und Zero-Shot-Klassifikation. Unsere Ergebnisse zeigen, dass spärliche latente Repräsentationen eine effektive Grundlage für das nachträgliche Debiasing von Vision-Language-Modellen bieten.

English

Models that bridge vision and language, such as CLIP, are key components of multimodal AI, yet their large-scale, uncurated training data introduce severe social and spurious biases. Existing post-hoc debiasing methods often operate directly in the dense CLIP embedding space, where bias and task-relevant information are highly entangled. This entanglement limits their ability to remove bias without degrading semantic fidelity. In this work, we propose Sparse Embedding Modulation (SEM), a post-hoc, zero-shot debiasing framework that operates in a Sparse Autoencoder (SAE) latent space. By decomposing CLIP text embeddings into disentangled features, SEM identifies and modulates bias-relevant neurons while preserving query-relevant ones. This enables more precise, non-linear interventions. Across four benchmark datasets and two CLIP backbones, SEM achieves substantial fairness gains in retrieval and zero-shot classification. Our results demonstrate that sparse latent representations provide an effective foundation for post-hoc debiasing of vision-language models.

SEM: Sparse Embedding Modulation zur nachträglichen Entfernung von Verzerrungen in Bild-Sprache-Modellen

SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language Models

Zusammenfassung

Support