SEM: Modulação de Incorporação Esparsa para Desenviesamento Pós-Hoc de Modelos de Visão e Linguagem

Resumo

Modelos que integram visão e linguagem, como o CLIP, são componentes fundamentais da IA multimodal, mas os seus dados de treino em larga escala e não curados introduzem vieses sociais e espúrios significativos. Os métodos existentes de mitigação de viés *post-hoc* operam frequentemente diretamente no espaço denso de incorporação do CLIP, onde a informação do viés e a informação relevante para a tarefa estão altamente entrelaçadas. Este entrelaçamento limita a sua capacidade de remover o viés sem degradar a fidelidade semântica. Neste trabalho, propomos a Modulação de Incorporações Esparsas (SEM, do inglês *Sparse Embedding Modulation*), uma estrutura de mitigação de viés *post-hoc* e *zero-shot* que opera num espaço latente de Autoencoder Esparsos (SAE). Ao decompor as incorporações de texto do CLIP em características disentrelaçadas, o SEM identifica e modula os neurónios relevantes para o viés, preservando aqueles que são relevantes para a consulta. Isto permite intervenções não lineares mais precisas. Em quatro conjuntos de dados de referência e duas arquiteturas base do CLIP, o SEM alcança ganhos substanciais de equidade em tarefas de recuperação e classificação *zero-shot*. Os nossos resultados demonstram que as representações latentes esparsas fornecem uma base eficaz para a mitigação de viés *post-hoc* em modelos de visão e linguagem.

English

Models that bridge vision and language, such as CLIP, are key components of multimodal AI, yet their large-scale, uncurated training data introduce severe social and spurious biases. Existing post-hoc debiasing methods often operate directly in the dense CLIP embedding space, where bias and task-relevant information are highly entangled. This entanglement limits their ability to remove bias without degrading semantic fidelity. In this work, we propose Sparse Embedding Modulation (SEM), a post-hoc, zero-shot debiasing framework that operates in a Sparse Autoencoder (SAE) latent space. By decomposing CLIP text embeddings into disentangled features, SEM identifies and modulates bias-relevant neurons while preserving query-relevant ones. This enables more precise, non-linear interventions. Across four benchmark datasets and two CLIP backbones, SEM achieves substantial fairness gains in retrieval and zero-shot classification. Our results demonstrate that sparse latent representations provide an effective foundation for post-hoc debiasing of vision-language models.

SEM: Modulação de Incorporação Esparsa para Desenviesamento Pós-Hoc de Modelos de Visão e Linguagem

SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language Models

Resumo

Support