BiasFreeBench: Ein Benchmark zur Minderung von Verzerrungen in den Antworten großer Sprachmodelle
BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses
September 30, 2025
papers.authors: Xin Xu, Xunzhi He, Churan Zhi, Ruizhe Chen, Julian McAuley, Zexue He
cs.AI
papers.abstract
Bestehende Studien zu Methoden zur Minderung von Verzerrungen in großen Sprachmodellen (LLMs) verwenden unterschiedliche Baselines und Metriken, um die Leistung bei der Entfernung von Verzerrungen zu bewerten, was zu inkonsistenten Vergleichen führt. Darüber hinaus basieren ihre Bewertungen hauptsächlich auf dem Vergleich der Wahrscheinlichkeiten von LLMs für verzerrte und unverzerrte Kontexte, was die Lücke zwischen solchen Bewertungen und realen Anwendungsfällen ignoriert, in denen Benutzer mit LLMs interagieren, indem sie Modellantworten lesen und faire sowie sichere Ausgaben erwarten, anstatt Wahrscheinlichkeiten der LLMs. Um eine konsistente Bewertung von Methoden zur Verzerrungsminderung zu ermöglichen und diese Lücke zu schließen, führen wir BiasFreeBench ein, einen empirischen Benchmark, der acht gängige Techniken zur Minderung von Verzerrungen (darunter vier promptbasierte und vier trainingsbasierte Methoden) in zwei Testszenarien (Multiple-Choice-Fragen und offene Mehrfachfragen) umfassend vergleicht, indem bestehende Datensätze in ein einheitliches Abfrage-Antwort-Setting reorganisiert werden. Wir führen außerdem eine Antwort-Ebene-Metrik, den Bias-Free Score, ein, um das Ausmaß zu messen, in dem LLM-Antworten fair, sicher und anti-stereotyp sind. Die Leistungen bei der Verzerrungsminderung werden systematisch über Schlüsseldimensionen hinweg verglichen und analysiert: das Prompting- vs. Training-Paradigma, die Modellgröße und die Generalisierung verschiedener Trainingsstrategien auf unbekannte Verzerrungstypen. Wir werden unseren Benchmark öffentlich zugänglich machen, um eine einheitliche Testumgebung für die Forschung zur Verzerrungsminderung zu etablieren.
English
Existing studies on bias mitigation methods for large language models (LLMs)
use diverse baselines and metrics to evaluate debiasing performance, leading to
inconsistent comparisons among them. Moreover, their evaluations are mostly
based on the comparison between LLMs' probabilities of biased and unbiased
contexts, which ignores the gap between such evaluations and real-world use
cases where users interact with LLMs by reading model responses and expect fair
and safe outputs rather than LLMs' probabilities. To enable consistent
evaluation across debiasing methods and bridge this gap, we introduce
BiasFreeBench, an empirical benchmark that comprehensively compares eight
mainstream bias mitigation techniques (covering four prompting-based and four
training-based methods) on two test scenarios (multi-choice QA and open-ended
multi-turn QA) by reorganizing existing datasets into a unified query-response
setting. We further introduce a response-level metric, Bias-Free Score, to
measure the extent to which LLM responses are fair, safe, and
anti-stereotypical. Debiasing performances are systematically compared and
analyzed across key dimensions: the prompting vs. training paradigm, model
size, and generalization of different training strategies to unseen bias types.
We will publicly release our benchmark, aiming to establish a unified testbed
for bias mitigation research.