BiasFreeBench: un Benchmark per Mitigare i Pregiudizi nelle Risposte dei Modelli Linguistici di Grande Dimensione
BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses
September 30, 2025
Autori: Xin Xu, Xunzhi He, Churan Zhi, Ruizhe Chen, Julian McAuley, Zexue He
cs.AI
Abstract
Gli studi esistenti sui metodi di mitigazione del bias per i grandi modelli linguistici (LLM) utilizzano baseline e metriche diverse per valutare le prestazioni di debiasing, portando a confronti inconsistenti tra di essi. Inoltre, le loro valutazioni si basano principalmente sul confronto tra le probabilità dei contesti con e senza bias nei LLM, ignorando il divario tra tali valutazioni e i casi d'uso reali in cui gli utenti interagiscono con i LLM leggendo le risposte del modello e si aspettano output equi e sicuri piuttosto che le probabilità dei LLM. Per consentire una valutazione coerente tra i metodi di debiasing e colmare questo divario, introduciamo BiasFreeBench, un benchmark empirico che confronta in modo completo otto tecniche principali di mitigazione del bias (che coprono quattro metodi basati su prompt e quattro basati su addestramento) in due scenari di test (QA a scelta multipla e QA aperta a più turni) riorganizzando i dataset esistenti in un'impostazione unificata di query-risposta. Introduciamo inoltre una metrica a livello di risposta, il Bias-Free Score, per misurare il grado in cui le risposte dei LLM sono eque, sicure e anti-stereotipiche. Le prestazioni di debiasing vengono confrontate e analizzate sistematicamente lungo dimensioni chiave: il paradigma basato su prompt vs. addestramento, la dimensione del modello e la generalizzazione di diverse strategie di addestramento a tipi di bias non visti. Rilasceremo pubblicamente il nostro benchmark, con l'obiettivo di stabilire un banco di prova unificato per la ricerca sulla mitigazione del bias.
English
Existing studies on bias mitigation methods for large language models (LLMs)
use diverse baselines and metrics to evaluate debiasing performance, leading to
inconsistent comparisons among them. Moreover, their evaluations are mostly
based on the comparison between LLMs' probabilities of biased and unbiased
contexts, which ignores the gap between such evaluations and real-world use
cases where users interact with LLMs by reading model responses and expect fair
and safe outputs rather than LLMs' probabilities. To enable consistent
evaluation across debiasing methods and bridge this gap, we introduce
BiasFreeBench, an empirical benchmark that comprehensively compares eight
mainstream bias mitigation techniques (covering four prompting-based and four
training-based methods) on two test scenarios (multi-choice QA and open-ended
multi-turn QA) by reorganizing existing datasets into a unified query-response
setting. We further introduce a response-level metric, Bias-Free Score, to
measure the extent to which LLM responses are fair, safe, and
anti-stereotypical. Debiasing performances are systematically compared and
analyzed across key dimensions: the prompting vs. training paradigm, model
size, and generalization of different training strategies to unseen bias types.
We will publicly release our benchmark, aiming to establish a unified testbed
for bias mitigation research.