BiasGym: Bias Fantastici e Come Individuarli (e Rimuoverli)
BiasGym: Fantastic Biases and How to Find (and Remove) Them
August 12, 2025
Autori: Sekh Mainul Islam, Nadav Borenstein, Siddhesh Milind Pawar, Haeun Yu, Arnav Arora, Isabelle Augenstein
cs.AI
Abstract
Comprendere i pregiudizi e gli stereotipi codificati nei pesi dei Large Language Models (LLM) è fondamentale per sviluppare strategie di mitigazione efficaci. Il comportamento distorto è spesso sottile e non banale da isolare, anche quando viene deliberatamente elicitato, rendendo l'analisi sistematica e la rimozione dei pregiudizi particolarmente impegnative. Per affrontare questo problema, introduciamo BiasGym, un framework semplice, economico e generalizzabile per iniettare, analizzare e mitigare in modo affidabile le associazioni concettuali all'interno dei LLM. BiasGym è composto da due componenti: BiasInject, che inietta specifici pregiudizi nel modello attraverso il fine-tuning basato su token mantenendo il modello congelato, e BiasScope, che sfrutta questi segnali iniettati per identificare e guidare i componenti responsabili del comportamento distorto. Il nostro metodo consente un'elicitazione coerente dei pregiudizi per l'analisi meccanicistica, supporta la rimozione mirata dei pregiudizi senza degradare le prestazioni sui task downstream e si generalizza a pregiudizi non visti durante l'addestramento. Dimostriamo l'efficacia di BiasGym nel ridurre stereotipi del mondo reale (ad esempio, le persone di un paese che sono "guidatori spericolati") e nell'indagare associazioni fittizie (ad esempio, le persone di un paese che hanno "la pelle blu"), mostrandone l'utilità sia per interventi di sicurezza che per la ricerca sull'interpretabilità.
English
Understanding biases and stereotypes encoded in the weights of Large Language
Models (LLMs) is crucial for developing effective mitigation strategies. Biased
behaviour is often subtle and non-trivial to isolate, even when deliberately
elicited, making systematic analysis and debiasing particularly challenging. To
address this, we introduce BiasGym, a simple, cost-effective, and generalizable
framework for reliably injecting, analyzing, and mitigating conceptual
associations within LLMs. BiasGym consists of two components: BiasInject, which
injects specific biases into the model via token-based fine-tuning while
keeping the model frozen, and BiasScope, which leverages these injected signals
to identify and steer the components responsible for biased behavior. Our
method enables consistent bias elicitation for mechanistic analysis, supports
targeted debiasing without degrading performance on downstream tasks, and
generalizes to biases unseen during training. We demonstrate the effectiveness
of BiasGym in reducing real-world stereotypes (e.g., people from a country
being `reckless drivers') and in probing fictional associations (e.g., people
from a country having `blue skin'), showing its utility for both safety
interventions and interpretability research.