SEM: Modulación de Incrustaciones Dispersas para la Eliminación de Sesgos Post-Hoc en Modelos de Visión y Lenguaje

Resumen

Los modelos que unen visión y lenguaje, como CLIP, son componentes clave de la IA multimodal, aunque sus datos de entrenamiento a gran escala y sin curar introducen graves sesgos sociales y espurios. Los métodos existentes de eliminación de sesgos *post-hoc* suelen operar directamente en el denso espacio de incrustaciones de CLIP, donde la información del sesgo y la relevante para la tarea están altamente entrelazadas. Este entrelazamiento limita su capacidad para eliminar el sesgo sin degradar la fidelidad semántica. En este trabajo, proponemos la Modulación de Incrustaciones Dispersas (SEM, por sus siglas en inglés), un marco de eliminación de sesgos *post-hoc* y de cero disparos que opera en el espacio latente de un Autoencoder Disperso (SAE). Al descomponer las incrustaciones de texto de CLIP en características disentrelazadas, SEM identifica y modula las neuronas relevantes para el sesgo mientras preserva las relevantes para la consulta. Esto permite intervenciones no lineales más precisas. En cuatro conjuntos de datos de referencia y dos arquitecturas base de CLIP, SEM logra ganancias sustanciales en equidad en recuperación y clasificación de cero disparos. Nuestros resultados demuestran que las representaciones latentes dispersas proporcionan una base efectiva para la eliminación de sesgos *post-hoc* en modelos de visión y lenguaje.

English

Models that bridge vision and language, such as CLIP, are key components of multimodal AI, yet their large-scale, uncurated training data introduce severe social and spurious biases. Existing post-hoc debiasing methods often operate directly in the dense CLIP embedding space, where bias and task-relevant information are highly entangled. This entanglement limits their ability to remove bias without degrading semantic fidelity. In this work, we propose Sparse Embedding Modulation (SEM), a post-hoc, zero-shot debiasing framework that operates in a Sparse Autoencoder (SAE) latent space. By decomposing CLIP text embeddings into disentangled features, SEM identifies and modulates bias-relevant neurons while preserving query-relevant ones. This enables more precise, non-linear interventions. Across four benchmark datasets and two CLIP backbones, SEM achieves substantial fairness gains in retrieval and zero-shot classification. Our results demonstrate that sparse latent representations provide an effective foundation for post-hoc debiasing of vision-language models.

SEM: Modulación de Incrustaciones Dispersas para la Eliminación de Sesgos Post-Hoc en Modelos de Visión y Lenguaje

SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language Models

Resumen

Support