BiasGym: Vieses Fantásticos e Como Encontrá-los (e Removê-los)

Resumo

Compreender os vieses e estereótipos codificados nos pesos dos Modelos de Linguagem de Grande Escala (LLMs) é crucial para o desenvolvimento de estratégias eficazes de mitigação. O comportamento tendencioso é frequentemente sutil e não trivial de isolar, mesmo quando deliberadamente eliciado, tornando a análise sistemática e a remoção de vieses particularmente desafiadoras. Para abordar isso, introduzimos o BiasGym, uma estrutura simples, econômica e generalizável para injetar, analisar e mitigar de forma confiável associações conceituais dentro dos LLMs. O BiasGym consiste em dois componentes: o BiasInject, que injeta vieses específicos no modelo por meio de ajuste fino baseado em tokens enquanto mantém o modelo congelado, e o BiasScope, que aproveita esses sinais injetados para identificar e direcionar os componentes responsáveis pelo comportamento tendencioso. Nosso método permite a eliciação consistente de vieses para análise mecanicista, suporta a remoção de vieses direcionada sem degradar o desempenho em tarefas subsequentes e generaliza para vieses não vistos durante o treinamento. Demonstramos a eficácia do BiasGym na redução de estereótipos do mundo real (por exemplo, pessoas de um país serem "motoristas imprudentes") e na investigação de associações fictícias (por exemplo, pessoas de um país terem "pele azul"), mostrando sua utilidade tanto para intervenções de segurança quanto para pesquisas de interpretabilidade.

English

Understanding biases and stereotypes encoded in the weights of Large Language Models (LLMs) is crucial for developing effective mitigation strategies. Biased behaviour is often subtle and non-trivial to isolate, even when deliberately elicited, making systematic analysis and debiasing particularly challenging. To address this, we introduce BiasGym, a simple, cost-effective, and generalizable framework for reliably injecting, analyzing, and mitigating conceptual associations within LLMs. BiasGym consists of two components: BiasInject, which injects specific biases into the model via token-based fine-tuning while keeping the model frozen, and BiasScope, which leverages these injected signals to identify and steer the components responsible for biased behavior. Our method enables consistent bias elicitation for mechanistic analysis, supports targeted debiasing without degrading performance on downstream tasks, and generalizes to biases unseen during training. We demonstrate the effectiveness of BiasGym in reducing real-world stereotypes (e.g., people from a country being `reckless drivers') and in probing fictional associations (e.g., people from a country having `blue skin'), showing its utility for both safety interventions and interpretability research.

BiasGym: Vieses Fantásticos e Como Encontrá-los (e Removê-los)

BiasGym: Fantastic Biases and How to Find (and Remove) Them

Resumo

Support