BiasGym: Fantastische Verzerrungen und wie man sie findet (und beseitigt)

papers.abstract

Das Verständnis von Vorurteilen und Stereotypen, die in den Gewichten von Large Language Models (LLMs) kodiert sind, ist entscheidend für die Entwicklung effektiver Strategien zu deren Minderung. Voreingenommenes Verhalten ist oft subtil und nicht trivial zu isolieren, selbst wenn es gezielt hervorgerufen wird, was eine systematische Analyse und Entvoreingenommenung besonders herausfordernd macht. Um dies zu adressieren, stellen wir BiasGym vor, ein einfaches, kosteneffizientes und verallgemeinerbares Framework zur zuverlässigen Injektion, Analyse und Minderung konzeptueller Assoziationen innerhalb von LLMs. BiasGym besteht aus zwei Komponenten: BiasInject, das spezifische Vorurteile durch token-basiertes Fine-Tuning in das Modell injiziert, während das Modell selbst eingefroren bleibt, und BiasScope, das diese injizierten Signale nutzt, um die Komponenten zu identifizieren und zu steuern, die für voreingenommenes Verhalten verantwortlich sind. Unsere Methode ermöglicht eine konsistente Hervorrufung von Vorurteilen für mechanistische Analysen, unterstützt gezielte Entvoreingenommenung ohne Leistungseinbußen bei nachgelagerten Aufgaben und verallgemeinert auf Vorurteile, die während des Trainings nicht gesehen wurden. Wir demonstrieren die Wirksamkeit von BiasGym bei der Reduzierung realer Stereotype (z. B. dass Menschen aus einem Land „rücksichtslose Fahrer“ seien) und bei der Untersuchung fiktiver Assoziationen (z. B. dass Menschen aus einem Land „blaue Haut“ hätten), und zeigen damit seinen Nutzen sowohl für Sicherheitsinterventionen als auch für Interpretierbarkeitsforschung.

English

Understanding biases and stereotypes encoded in the weights of Large Language Models (LLMs) is crucial for developing effective mitigation strategies. Biased behaviour is often subtle and non-trivial to isolate, even when deliberately elicited, making systematic analysis and debiasing particularly challenging. To address this, we introduce BiasGym, a simple, cost-effective, and generalizable framework for reliably injecting, analyzing, and mitigating conceptual associations within LLMs. BiasGym consists of two components: BiasInject, which injects specific biases into the model via token-based fine-tuning while keeping the model frozen, and BiasScope, which leverages these injected signals to identify and steer the components responsible for biased behavior. Our method enables consistent bias elicitation for mechanistic analysis, supports targeted debiasing without degrading performance on downstream tasks, and generalizes to biases unseen during training. We demonstrate the effectiveness of BiasGym in reducing real-world stereotypes (e.g., people from a country being `reckless drivers') and in probing fictional associations (e.g., people from a country having `blue skin'), showing its utility for both safety interventions and interpretability research.

BiasGym: Fantastische Verzerrungen und wie man sie findet (und beseitigt)

BiasGym: Fantastic Biases and How to Find (and Remove) Them

papers.abstract

Support