BiasGym : Des biais fantastiques et comment les détecter (et les éliminer)
BiasGym: Fantastic Biases and How to Find (and Remove) Them
August 12, 2025
papers.authors: Sekh Mainul Islam, Nadav Borenstein, Siddhesh Milind Pawar, Haeun Yu, Arnav Arora, Isabelle Augenstein
cs.AI
papers.abstract
Comprendre les biais et les stéréotypes encodés dans les poids des modèles de langage à grande échelle (LLMs) est crucial pour développer des stratégies d'atténuation efficaces. Les comportements biaisés sont souvent subtils et non triviaux à isoler, même lorsqu'ils sont délibérément provoqués, rendant l'analyse systématique et la débiaisation particulièrement complexes. Pour répondre à ce défi, nous introduisons BiasGym, un cadre simple, économique et généralisable permettant d'injecter, d'analyser et d'atténuer de manière fiable les associations conceptuelles au sein des LLMs. BiasGym se compose de deux éléments : BiasInject, qui injecte des biais spécifiques dans le modèle via un ajustement fin basé sur les tokens tout en gardant le modèle figé, et BiasScope, qui exploite ces signaux injectés pour identifier et orienter les composants responsables des comportements biaisés. Notre méthode permet une provocation cohérente des biais pour une analyse mécaniste, soutient une débiaisation ciblée sans dégrader les performances sur les tâches en aval, et se généralise à des biais non rencontrés pendant l'entraînement. Nous démontrons l'efficacité de BiasGym dans la réduction des stéréotypes réels (par exemple, les personnes d'un pays étant des « conducteurs imprudents ») et dans l'exploration d'associations fictives (par exemple, les personnes d'un pays ayant une « peau bleue »), montrant ainsi son utilité à la fois pour les interventions de sécurité et la recherche en interprétabilité.
English
Understanding biases and stereotypes encoded in the weights of Large Language
Models (LLMs) is crucial for developing effective mitigation strategies. Biased
behaviour is often subtle and non-trivial to isolate, even when deliberately
elicited, making systematic analysis and debiasing particularly challenging. To
address this, we introduce BiasGym, a simple, cost-effective, and generalizable
framework for reliably injecting, analyzing, and mitigating conceptual
associations within LLMs. BiasGym consists of two components: BiasInject, which
injects specific biases into the model via token-based fine-tuning while
keeping the model frozen, and BiasScope, which leverages these injected signals
to identify and steer the components responsible for biased behavior. Our
method enables consistent bias elicitation for mechanistic analysis, supports
targeted debiasing without degrading performance on downstream tasks, and
generalizes to biases unseen during training. We demonstrate the effectiveness
of BiasGym in reducing real-world stereotypes (e.g., people from a country
being `reckless drivers') and in probing fictional associations (e.g., people
from a country having `blue skin'), showing its utility for both safety
interventions and interpretability research.