BiasGym: Bias Fantastici e Come Individuarli (e Rimuoverli)

Abstract

Comprendere i pregiudizi e gli stereotipi codificati nei pesi dei Large Language Models (LLM) è fondamentale per sviluppare strategie di mitigazione efficaci. Il comportamento distorto è spesso sottile e non banale da isolare, anche quando viene deliberatamente elicitato, rendendo l'analisi sistematica e la rimozione dei pregiudizi particolarmente impegnative. Per affrontare questo problema, introduciamo BiasGym, un framework semplice, economico e generalizzabile per iniettare, analizzare e mitigare in modo affidabile le associazioni concettuali all'interno dei LLM. BiasGym è composto da due componenti: BiasInject, che inietta specifici pregiudizi nel modello attraverso il fine-tuning basato su token mantenendo il modello congelato, e BiasScope, che sfrutta questi segnali iniettati per identificare e guidare i componenti responsabili del comportamento distorto. Il nostro metodo consente un'elicitazione coerente dei pregiudizi per l'analisi meccanicistica, supporta la rimozione mirata dei pregiudizi senza degradare le prestazioni sui task downstream e si generalizza a pregiudizi non visti durante l'addestramento. Dimostriamo l'efficacia di BiasGym nel ridurre stereotipi del mondo reale (ad esempio, le persone di un paese che sono "guidatori spericolati") e nell'indagare associazioni fittizie (ad esempio, le persone di un paese che hanno "la pelle blu"), mostrandone l'utilità sia per interventi di sicurezza che per la ricerca sull'interpretabilità.

English

Understanding biases and stereotypes encoded in the weights of Large Language Models (LLMs) is crucial for developing effective mitigation strategies. Biased behaviour is often subtle and non-trivial to isolate, even when deliberately elicited, making systematic analysis and debiasing particularly challenging. To address this, we introduce BiasGym, a simple, cost-effective, and generalizable framework for reliably injecting, analyzing, and mitigating conceptual associations within LLMs. BiasGym consists of two components: BiasInject, which injects specific biases into the model via token-based fine-tuning while keeping the model frozen, and BiasScope, which leverages these injected signals to identify and steer the components responsible for biased behavior. Our method enables consistent bias elicitation for mechanistic analysis, supports targeted debiasing without degrading performance on downstream tasks, and generalizes to biases unseen during training. We demonstrate the effectiveness of BiasGym in reducing real-world stereotypes (e.g., people from a country being `reckless drivers') and in probing fictional associations (e.g., people from a country having `blue skin'), showing its utility for both safety interventions and interpretability research.

BiasGym: Bias Fantastici e Come Individuarli (e Rimuoverli)

BiasGym: Fantastic Biases and How to Find (and Remove) Them

Abstract

Support