직업 편향 해체: 미국 노동 데이터를 활용한 LLMs의 편향 보정
Unboxing Occupational Bias: Grounded Debiasing LLMs with U.S. Labor Data
August 20, 2024
저자: Atmika Gorti, Manas Gaur, Aman Chadha
cs.AI
초록
대규모 언어 모델(LLMs)은 훈련 데이터에 포함된 사회적 편향을 상속하고 확대하는 경향이 있어, 성별, 직업 및 기타 민감한 범주와 관련된 해로운 편견을 강화할 수 있습니다. 이 문제는 편향된 LLM이 불공정한 실천을 유발하고 채용, 온라인 콘텐츠 관리, 심지어 범죄 사법 체계와 같은 다양한 분야에서 사회적 불평등을 악화시킬 수 있기 때문에 특히 문제가 됩니다. 이전 연구는 내재적 편향을 강조하기 위해 설계된 전문 데이터셋을 사용하여 LLM의 편향을 감지하는 데 초점을 맞추었지만, 미국 노동 통계국(NBLS)과 같은 권위 있는 데이터셋과의 상관 관계에 대한 조사가 부족한 것으로 알려져 있습니다. 이 간극을 해소하기 위해, 우리는 '박스 밖의 편향' 설정에서 LLM을 평가하는 경험적 연구를 실시하며, 생성된 출력물이 NBLS 데이터에서 발견된 분포와 어떻게 비교되는지 분석합니다. 더불어, 우리는 NBLS 사례를 직접 통합하여 LLM 내의 편향을 완화하는 간단하면서도 효과적인 편향 제거 메커니즘을 제안합니다. 우리의 연구는 가르칠 수 있는, 기본 및 전문가 모델을 포함한 일곱 가지 다른 LLM을 아우르며, 기존의 편향 감지 기술에서 종종 간과되는 중요한 수준의 편향을 드러냅니다. 더 중요한 것은 외부 데이터셋에 의존하지 않는 우리의 편향 제거 방법이 편향 점수를 상당히 줄이는 것을 보여주어, 우리의 접근 방식이 더 공정하고 신뢰할 수 있는 LLM을 만드는 데 효과적임을 강조합니다.
English
Large Language Models (LLMs) are prone to inheriting and amplifying societal
biases embedded within their training data, potentially reinforcing harmful
stereotypes related to gender, occupation, and other sensitive categories. This
issue becomes particularly problematic as biased LLMs can have far-reaching
consequences, leading to unfair practices and exacerbating social inequalities
across various domains, such as recruitment, online content moderation, or even
the criminal justice system. Although prior research has focused on detecting
bias in LLMs using specialized datasets designed to highlight intrinsic biases,
there has been a notable lack of investigation into how these findings
correlate with authoritative datasets, such as those from the U.S. National
Bureau of Labor Statistics (NBLS). To address this gap, we conduct empirical
research that evaluates LLMs in a ``bias-out-of-the-box" setting, analyzing how
the generated outputs compare with the distributions found in NBLS data.
Furthermore, we propose a straightforward yet effective debiasing mechanism
that directly incorporates NBLS instances to mitigate bias within LLMs. Our
study spans seven different LLMs, including instructable, base, and
mixture-of-expert models, and reveals significant levels of bias that are often
overlooked by existing bias detection techniques. Importantly, our debiasing
method, which does not rely on external datasets, demonstrates a substantial
reduction in bias scores, highlighting the efficacy of our approach in creating
fairer and more reliable LLMs.Summary
AI-Generated Summary