BiasGym: Vieses Fantásticos e Como Encontrá-los (e Removê-los)
BiasGym: Fantastic Biases and How to Find (and Remove) Them
August 12, 2025
Autores: Sekh Mainul Islam, Nadav Borenstein, Siddhesh Milind Pawar, Haeun Yu, Arnav Arora, Isabelle Augenstein
cs.AI
Resumo
Compreender os vieses e estereótipos codificados nos pesos dos Modelos de Linguagem de Grande Escala (LLMs) é crucial para o desenvolvimento de estratégias eficazes de mitigação. O comportamento tendencioso é frequentemente sutil e não trivial de isolar, mesmo quando deliberadamente eliciado, tornando a análise sistemática e a remoção de vieses particularmente desafiadoras. Para abordar isso, introduzimos o BiasGym, uma estrutura simples, econômica e generalizável para injetar, analisar e mitigar de forma confiável associações conceituais dentro dos LLMs. O BiasGym consiste em dois componentes: o BiasInject, que injeta vieses específicos no modelo por meio de ajuste fino baseado em tokens enquanto mantém o modelo congelado, e o BiasScope, que aproveita esses sinais injetados para identificar e direcionar os componentes responsáveis pelo comportamento tendencioso. Nosso método permite a eliciação consistente de vieses para análise mecanicista, suporta a remoção de vieses direcionada sem degradar o desempenho em tarefas subsequentes e generaliza para vieses não vistos durante o treinamento. Demonstramos a eficácia do BiasGym na redução de estereótipos do mundo real (por exemplo, pessoas de um país serem "motoristas imprudentes") e na investigação de associações fictícias (por exemplo, pessoas de um país terem "pele azul"), mostrando sua utilidade tanto para intervenções de segurança quanto para pesquisas de interpretabilidade.
English
Understanding biases and stereotypes encoded in the weights of Large Language
Models (LLMs) is crucial for developing effective mitigation strategies. Biased
behaviour is often subtle and non-trivial to isolate, even when deliberately
elicited, making systematic analysis and debiasing particularly challenging. To
address this, we introduce BiasGym, a simple, cost-effective, and generalizable
framework for reliably injecting, analyzing, and mitigating conceptual
associations within LLMs. BiasGym consists of two components: BiasInject, which
injects specific biases into the model via token-based fine-tuning while
keeping the model frozen, and BiasScope, which leverages these injected signals
to identify and steer the components responsible for biased behavior. Our
method enables consistent bias elicitation for mechanistic analysis, supports
targeted debiasing without degrading performance on downstream tasks, and
generalizes to biases unseen during training. We demonstrate the effectiveness
of BiasGym in reducing real-world stereotypes (e.g., people from a country
being `reckless drivers') and in probing fictional associations (e.g., people
from a country having `blue skin'), showing its utility for both safety
interventions and interpretability research.