ChatPaper.aiChatPaper

CoBia: Conversazioni Costruite Possono Evidenziare Pregiudizi Sociali Altrimenti Nascosti nei Modelli Linguistici di Grande Dimensione

CoBia: Constructed Conversations Can Trigger Otherwise Concealed Societal Biases in LLMs

October 10, 2025
Autori: Nafiseh Nikeghbal, Amir Hossein Kargaran, Jana Diesner
cs.AI

Abstract

I miglioramenti nella costruzione dei modelli, comprese barriere di sicurezza rafforzate, consentono ai modelli linguistici di grandi dimensioni (LLM) di superare sempre più i controlli di sicurezza standard. Tuttavia, gli LLM a volte cadono nel rivelare comportamenti dannosi, come esprimere punti di vista razzisti, durante le conversazioni. Per analizzare ciò in modo sistematico, introduciamo CoBia, una suite di attacchi avversari leggeri che ci permettono di affinare l'ambito delle condizioni in cui gli LLM si allontanano da comportamenti normativi o etici nelle conversazioni. CoBia crea una conversazione costruita in cui il modello esprime un'affermazione pregiudiziale su un gruppo sociale. Valutiamo quindi se il modello può riprendersi dall'affermazione pregiudiziale fabbricata e rifiutare domande di follow-up pregiudiziali. Valutiamo 11 LLM open-source e proprietari per i loro output relativi a sei categorie socio-demografiche rilevanti per la sicurezza individuale e il trattamento equo, ovvero genere, razza, religione, nazionalità, orientamento sessuale e altri. La nostra valutazione si basa su metriche di bias consolidate basate su LLM e confrontiamo i risultati con i giudizi umani per delineare l'affidabilità e l'allineamento degli LLM. I risultati suggeriscono che conversazioni costruite intenzionalmente rivelano in modo affidabile l'amplificazione dei pregiudizi e che gli LLM spesso non riescono a rifiutare domande di follow-up pregiudiziali durante il dialogo. Questa forma di stress-test evidenzia pregiudizi profondamente radicati che possono emergere attraverso l'interazione. Codice e artefatti sono disponibili su https://github.com/nafisenik/CoBia.
English
Improvements in model construction, including fortified safety guardrails, allow Large language models (LLMs) to increasingly pass standard safety checks. However, LLMs sometimes slip into revealing harmful behavior, such as expressing racist viewpoints, during conversations. To analyze this systematically, we introduce CoBia, a suite of lightweight adversarial attacks that allow us to refine the scope of conditions under which LLMs depart from normative or ethical behavior in conversations. CoBia creates a constructed conversation where the model utters a biased claim about a social group. We then evaluate whether the model can recover from the fabricated bias claim and reject biased follow-up questions. We evaluate 11 open-source as well as proprietary LLMs for their outputs related to six socio-demographic categories that are relevant to individual safety and fair treatment, i.e., gender, race, religion, nationality, sex orientation, and others. Our evaluation is based on established LLM-based bias metrics, and we compare the results against human judgments to scope out the LLMs' reliability and alignment. The results suggest that purposefully constructed conversations reliably reveal bias amplification and that LLMs often fail to reject biased follow-up questions during dialogue. This form of stress-testing highlights deeply embedded biases that can be surfaced through interaction. Code and artifacts are available at https://github.com/nafisenik/CoBia.
PDF22October 14, 2025