ChatPaper.aiChatPaper

CoBia:構築された会話はLLMに潜在する社会的バイアスを引き起こし得る

CoBia: Constructed Conversations Can Trigger Otherwise Concealed Societal Biases in LLMs

October 10, 2025
著者: Nafiseh Nikeghbal, Amir Hossein Kargaran, Jana Diesner
cs.AI

要旨

モデル構築の改善、特に強化された安全ガードレールの導入により、大規模言語モデル(LLMs)は標準的な安全チェックを通過する能力をますます高めている。しかし、LLMsは会話中に有害な行動、例えば人種差別的な見解を表明するなど、逸脱することがある。これを体系的に分析するため、我々はCoBiaを導入した。CoBiaは軽量な敵対的攻撃のスイートであり、LLMsが会話中に規範的または倫理的な行動から逸脱する条件の範囲を精緻化することを可能にする。CoBiaは、モデルが特定の社会集団について偏見のある主張を行うように設計された会話を作成する。その後、モデルがその捏造された偏見主張から回復し、偏見のあるフォローアップ質問を拒否できるかどうかを評価する。我々は、個人の安全と公平な扱いに関連する6つの社会人口統計学的カテゴリ(性別、人種、宗教、国籍、性的指向、その他)に関連する出力について、11のオープンソースおよびプロプライエタリなLLMsを評価した。評価は確立されたLLMベースのバイアス指標に基づいて行われ、その結果を人間の判断と比較して、LLMsの信頼性と整合性を明らかにした。結果は、意図的に構築された会話がバイアスの増幅を確実に明らかにし、LLMsが対話中に偏見のあるフォローアップ質問を拒否できないことが多いことを示唆している。この形式のストレステストは、相互作用を通じて表面化する深く埋め込まれたバイアスを浮き彫りにする。コードと成果物はhttps://github.com/nafisenik/CoBiaで利用可能である。
English
Improvements in model construction, including fortified safety guardrails, allow Large language models (LLMs) to increasingly pass standard safety checks. However, LLMs sometimes slip into revealing harmful behavior, such as expressing racist viewpoints, during conversations. To analyze this systematically, we introduce CoBia, a suite of lightweight adversarial attacks that allow us to refine the scope of conditions under which LLMs depart from normative or ethical behavior in conversations. CoBia creates a constructed conversation where the model utters a biased claim about a social group. We then evaluate whether the model can recover from the fabricated bias claim and reject biased follow-up questions. We evaluate 11 open-source as well as proprietary LLMs for their outputs related to six socio-demographic categories that are relevant to individual safety and fair treatment, i.e., gender, race, religion, nationality, sex orientation, and others. Our evaluation is based on established LLM-based bias metrics, and we compare the results against human judgments to scope out the LLMs' reliability and alignment. The results suggest that purposefully constructed conversations reliably reveal bias amplification and that LLMs often fail to reject biased follow-up questions during dialogue. This form of stress-testing highlights deeply embedded biases that can be surfaced through interaction. Code and artifacts are available at https://github.com/nafisenik/CoBia.
PDF22October 14, 2025