BiasFreeBench: 대규모 언어 모델 응답의 편향 완화를 위한 벤치마크
BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses
September 30, 2025
저자: Xin Xu, Xunzhi He, Churan Zhi, Ruizhe Chen, Julian McAuley, Zexue He
cs.AI
초록
대규모 언어 모델(LLM)의 편향 완화 방법에 대한 기존 연구들은 다양한 기준선과 지표를 사용하여 편향 제거 성능을 평가함으로써, 연구 간 일관된 비교가 어려운 상황입니다. 더욱이, 이러한 평가는 대부분 편향적 맥락과 비편향적 맥락에서의 LLM 확률 비교에 기반하고 있어, 사용자가 모델 응답을 읽으며 상호작용하고 공정하고 안전한 출력을 기대하는 실제 사용 사례와의 괴리를 무시하고 있습니다. 이러한 편향 완화 방법들 간의 일관된 평가를 가능하게 하고 이 괴리를 해소하기 위해, 우리는 BiasFreeBench를 소개합니다. 이는 기존 데이터셋을 통합된 질의-응답 설정으로 재구성하여, 두 가지 테스트 시나리오(다중 선택 질의응답과 개방형 다중 턴 질의응답)에서 8가지 주류 편향 완화 기술(4가지 프롬프트 기반 방법과 4가지 훈련 기반 방법)을 포괄적으로 비교하는 실증적 벤치마크입니다. 또한, 우리는 LLM 응답이 얼마나 공정하고 안전하며 반고정관념적인지를 측정하는 응답 수준 지표인 Bias-Free Score를 도입했습니다. 편향 제거 성능은 프롬프트 대 훈련 패러다임, 모델 크기, 그리고 다양한 훈련 전략이 보이지 않는 편향 유형에 대해 일반화되는 정도 등 주요 차원에서 체계적으로 비교 및 분석되었습니다. 우리는 이 벤치마크를 공개하여 편향 완화 연구를 위한 통합된 테스트베드를 구축하고자 합니다.
English
Existing studies on bias mitigation methods for large language models (LLMs)
use diverse baselines and metrics to evaluate debiasing performance, leading to
inconsistent comparisons among them. Moreover, their evaluations are mostly
based on the comparison between LLMs' probabilities of biased and unbiased
contexts, which ignores the gap between such evaluations and real-world use
cases where users interact with LLMs by reading model responses and expect fair
and safe outputs rather than LLMs' probabilities. To enable consistent
evaluation across debiasing methods and bridge this gap, we introduce
BiasFreeBench, an empirical benchmark that comprehensively compares eight
mainstream bias mitigation techniques (covering four prompting-based and four
training-based methods) on two test scenarios (multi-choice QA and open-ended
multi-turn QA) by reorganizing existing datasets into a unified query-response
setting. We further introduce a response-level metric, Bias-Free Score, to
measure the extent to which LLM responses are fair, safe, and
anti-stereotypical. Debiasing performances are systematically compared and
analyzed across key dimensions: the prompting vs. training paradigm, model
size, and generalization of different training strategies to unseen bias types.
We will publicly release our benchmark, aiming to establish a unified testbed
for bias mitigation research.