BiasGym: Fantastische Verzerrungen und wie man sie findet (und beseitigt)
BiasGym: Fantastic Biases and How to Find (and Remove) Them
August 12, 2025
papers.authors: Sekh Mainul Islam, Nadav Borenstein, Siddhesh Milind Pawar, Haeun Yu, Arnav Arora, Isabelle Augenstein
cs.AI
papers.abstract
Das Verständnis von Vorurteilen und Stereotypen, die in den Gewichten von Large Language Models (LLMs) kodiert sind, ist entscheidend für die Entwicklung effektiver Strategien zu deren Minderung. Voreingenommenes Verhalten ist oft subtil und nicht trivial zu isolieren, selbst wenn es gezielt hervorgerufen wird, was eine systematische Analyse und Entvoreingenommenung besonders herausfordernd macht. Um dies zu adressieren, stellen wir BiasGym vor, ein einfaches, kosteneffizientes und verallgemeinerbares Framework zur zuverlässigen Injektion, Analyse und Minderung konzeptueller Assoziationen innerhalb von LLMs. BiasGym besteht aus zwei Komponenten: BiasInject, das spezifische Vorurteile durch token-basiertes Fine-Tuning in das Modell injiziert, während das Modell selbst eingefroren bleibt, und BiasScope, das diese injizierten Signale nutzt, um die Komponenten zu identifizieren und zu steuern, die für voreingenommenes Verhalten verantwortlich sind. Unsere Methode ermöglicht eine konsistente Hervorrufung von Vorurteilen für mechanistische Analysen, unterstützt gezielte Entvoreingenommenung ohne Leistungseinbußen bei nachgelagerten Aufgaben und verallgemeinert auf Vorurteile, die während des Trainings nicht gesehen wurden. Wir demonstrieren die Wirksamkeit von BiasGym bei der Reduzierung realer Stereotype (z. B. dass Menschen aus einem Land „rücksichtslose Fahrer“ seien) und bei der Untersuchung fiktiver Assoziationen (z. B. dass Menschen aus einem Land „blaue Haut“ hätten), und zeigen damit seinen Nutzen sowohl für Sicherheitsinterventionen als auch für Interpretierbarkeitsforschung.
English
Understanding biases and stereotypes encoded in the weights of Large Language
Models (LLMs) is crucial for developing effective mitigation strategies. Biased
behaviour is often subtle and non-trivial to isolate, even when deliberately
elicited, making systematic analysis and debiasing particularly challenging. To
address this, we introduce BiasGym, a simple, cost-effective, and generalizable
framework for reliably injecting, analyzing, and mitigating conceptual
associations within LLMs. BiasGym consists of two components: BiasInject, which
injects specific biases into the model via token-based fine-tuning while
keeping the model frozen, and BiasScope, which leverages these injected signals
to identify and steer the components responsible for biased behavior. Our
method enables consistent bias elicitation for mechanistic analysis, supports
targeted debiasing without degrading performance on downstream tasks, and
generalizes to biases unseen during training. We demonstrate the effectiveness
of BiasGym in reducing real-world stereotypes (e.g., people from a country
being `reckless drivers') and in probing fictional associations (e.g., people
from a country having `blue skin'), showing its utility for both safety
interventions and interpretability research.