BiasFreeBench: 大規模言語モデルの応答におけるバイアス軽減のためのベンチマーク
BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses
September 30, 2025
著者: Xin Xu, Xunzhi He, Churan Zhi, Ruizhe Chen, Julian McAuley, Zexue He
cs.AI
要旨
大規模言語モデル(LLMs)のバイアス軽減手法に関する既存の研究では、多様なベースラインと評価指標が使用されており、それらの間の比較が一貫していない。さらに、これらの評価は主に、バイアスがある文脈とバイアスがない文脈におけるLLMsの確率の比較に基づいており、そのような評価と現実世界のユースケースとのギャップを無視している。現実世界では、ユーザーはモデルの応答を読み取り、公平で安全な出力を期待してLLMsと対話するが、LLMsの確率を直接参照することはない。このギャップを埋め、バイアス軽減手法間で一貫した評価を可能にするため、我々はBiasFreeBenchを導入する。これは、既存のデータセットを統一されたクエリ-応答設定に再編成し、8つの主流なバイアス軽減手法(4つのプロンプトベース手法と4つのトレーニングベース手法をカバー)を2つのテストシナリオ(多肢選択QAとオープンエンド多ターンQA)で包括的に比較する実証的ベンチマークである。さらに、応答レベルの評価指標であるBias-Free Scoreを導入し、LLMの応答が公平で安全であり、反ステレオタイプ的である程度を測定する。バイアス軽減の性能は、プロンプト対トレーニングのパラダイム、モデルサイズ、および異なるトレーニング戦略の未見のバイアスタイプへの一般化といった主要な次元にわたって体系的に比較・分析される。我々はこのベンチマークを公開し、バイアス軽減研究のための統一されたテストベッドを確立することを目指す。
English
Existing studies on bias mitigation methods for large language models (LLMs)
use diverse baselines and metrics to evaluate debiasing performance, leading to
inconsistent comparisons among them. Moreover, their evaluations are mostly
based on the comparison between LLMs' probabilities of biased and unbiased
contexts, which ignores the gap between such evaluations and real-world use
cases where users interact with LLMs by reading model responses and expect fair
and safe outputs rather than LLMs' probabilities. To enable consistent
evaluation across debiasing methods and bridge this gap, we introduce
BiasFreeBench, an empirical benchmark that comprehensively compares eight
mainstream bias mitigation techniques (covering four prompting-based and four
training-based methods) on two test scenarios (multi-choice QA and open-ended
multi-turn QA) by reorganizing existing datasets into a unified query-response
setting. We further introduce a response-level metric, Bias-Free Score, to
measure the extent to which LLM responses are fair, safe, and
anti-stereotypical. Debiasing performances are systematically compared and
analyzed across key dimensions: the prompting vs. training paradigm, model
size, and generalization of different training strategies to unseen bias types.
We will publicly release our benchmark, aiming to establish a unified testbed
for bias mitigation research.