ChatPaper.aiChatPaper

CoBia: 구성된 대화가 LLM에 잠재된 사회적 편향을 드러낼 수 있다

CoBia: Constructed Conversations Can Trigger Otherwise Concealed Societal Biases in LLMs

October 10, 2025
저자: Nafiseh Nikeghbal, Amir Hossein Kargaran, Jana Diesner
cs.AI

초록

모델 구축의 개선, 특히 강화된 안전 가드레일을 통해 대형 언어 모델(LLMs)이 표준 안전 검사를 점점 더 통과할 수 있게 되었습니다. 그러나 LLMs는 때때로 대화 중에 인종차별적 관점을 표현하는 등 유해한 행동을 드러내기도 합니다. 이를 체계적으로 분석하기 위해, 우리는 CoBia라는 경량의 적대적 공격 도구 세트를 소개합니다. 이 도구는 LLMs가 대화에서 규범적 또는 윤리적 행동에서 벗어나는 조건의 범위를 세밀하게 조정할 수 있게 해줍니다. CoBia는 모델이 특정 사회 집단에 대해 편향된 주장을 하는 구성된 대화를 생성합니다. 그런 다음 모델이 이 조작된 편향 주장에서 회복하고 편향된 후속 질문을 거부할 수 있는지 평가합니다. 우리는 11개의 오픈소스 및 독점 LLMs를 대상으로 성별, 인종, 종교, 국적, 성적 지향 및 기타 개인의 안전과 공정한 대우와 관련된 6가지 사회인구학적 범주에 대한 출력을 평가합니다. 이 평가는 확립된 LLM 기반 편향 지표를 기반으로 하며, 인간의 판단과 비교하여 LLMs의 신뢰성과 정렬 정도를 파악합니다. 결과는 의도적으로 구성된 대화가 편향 증폭을 신뢰적으로 드러내며, LLMs가 대화 중에 편향된 후속 질문을 거부하지 못하는 경우가 많다는 것을 보여줍니다. 이러한 형태의 스트레스 테스트는 상호작용을 통해 표면화될 수 있는 깊이 내재된 편향을 강조합니다. 코드와 아티팩트는 https://github.com/nafisenik/CoBia에서 확인할 수 있습니다.
English
Improvements in model construction, including fortified safety guardrails, allow Large language models (LLMs) to increasingly pass standard safety checks. However, LLMs sometimes slip into revealing harmful behavior, such as expressing racist viewpoints, during conversations. To analyze this systematically, we introduce CoBia, a suite of lightweight adversarial attacks that allow us to refine the scope of conditions under which LLMs depart from normative or ethical behavior in conversations. CoBia creates a constructed conversation where the model utters a biased claim about a social group. We then evaluate whether the model can recover from the fabricated bias claim and reject biased follow-up questions. We evaluate 11 open-source as well as proprietary LLMs for their outputs related to six socio-demographic categories that are relevant to individual safety and fair treatment, i.e., gender, race, religion, nationality, sex orientation, and others. Our evaluation is based on established LLM-based bias metrics, and we compare the results against human judgments to scope out the LLMs' reliability and alignment. The results suggest that purposefully constructed conversations reliably reveal bias amplification and that LLMs often fail to reject biased follow-up questions during dialogue. This form of stress-testing highlights deeply embedded biases that can be surfaced through interaction. Code and artifacts are available at https://github.com/nafisenik/CoBia.
PDF22October 14, 2025