BiasGym: Fantastische Vooroordelen en Hoe Ze te Vinden (en te Verwijderen)
BiasGym: Fantastic Biases and How to Find (and Remove) Them
August 12, 2025
Auteurs: Sekh Mainul Islam, Nadav Borenstein, Siddhesh Milind Pawar, Haeun Yu, Arnav Arora, Isabelle Augenstein
cs.AI
Samenvatting
Het begrijpen van vooroordelen en stereotypen die zijn gecodeerd in de gewichten van Large Language Models (LLMs) is cruciaal voor het ontwikkelen van effectieve mitigatiestrategieën. Bevooroordeeld gedrag is vaak subtiel en niet triviaal te isoleren, zelfs wanneer het opzettelijk wordt uitgelokt, wat systematische analyse en debiasing bijzonder uitdagend maakt. Om dit aan te pakken, introduceren we BiasGym, een eenvoudig, kosteneffectief en generaliseerbaar framework voor het betrouwbaar injecteren, analyseren en mitigeren van conceptuele associaties binnen LLMs. BiasGym bestaat uit twee componenten: BiasInject, dat specifieke vooroordelen in het model injecteert via token-gebaseerde fine-tuning terwijl het model bevroren blijft, en BiasScope, dat gebruikmaakt van deze geïnjecteerde signalen om de componenten die verantwoordelijk zijn voor bevooroordeeld gedrag te identificeren en bij te sturen. Onze methode maakt consistente bias-uitlokking mogelijk voor mechanistische analyse, ondersteunt gerichte debiasing zonder de prestaties op downstream taken te verslechteren, en generaliseert naar vooroordelen die niet tijdens de training zijn gezien. We demonstreren de effectiviteit van BiasGym in het verminderen van real-world stereotypen (bijvoorbeeld mensen uit een land die 'roekeloze chauffeurs' zijn) en in het onderzoeken van fictieve associaties (bijvoorbeeld mensen uit een land met 'blauwe huid'), wat het nut ervan aantoont voor zowel veiligheidsinterventies als interpretatieonderzoek.
English
Understanding biases and stereotypes encoded in the weights of Large Language
Models (LLMs) is crucial for developing effective mitigation strategies. Biased
behaviour is often subtle and non-trivial to isolate, even when deliberately
elicited, making systematic analysis and debiasing particularly challenging. To
address this, we introduce BiasGym, a simple, cost-effective, and generalizable
framework for reliably injecting, analyzing, and mitigating conceptual
associations within LLMs. BiasGym consists of two components: BiasInject, which
injects specific biases into the model via token-based fine-tuning while
keeping the model frozen, and BiasScope, which leverages these injected signals
to identify and steer the components responsible for biased behavior. Our
method enables consistent bias elicitation for mechanistic analysis, supports
targeted debiasing without degrading performance on downstream tasks, and
generalizes to biases unseen during training. We demonstrate the effectiveness
of BiasGym in reducing real-world stereotypes (e.g., people from a country
being `reckless drivers') and in probing fictional associations (e.g., people
from a country having `blue skin'), showing its utility for both safety
interventions and interpretability research.