CoBia: Conversas Construídas Podem Revelar Vieses Sociais Ocultos em LLMs
CoBia: Constructed Conversations Can Trigger Otherwise Concealed Societal Biases in LLMs
October 10, 2025
Autores: Nafiseh Nikeghbal, Amir Hossein Kargaran, Jana Diesner
cs.AI
Resumo
Melhorias na construção de modelos, incluindo barreiras de segurança reforçadas, permitem que os modelos de linguagem de grande escala (LLMs, na sigla em inglês) passem cada vez mais por verificações padrão de segurança. No entanto, os LLMs às vezes revelam comportamentos prejudiciais, como expressar pontos de vista racistas, durante conversas. Para analisar isso de forma sistemática, introduzimos o CoBia, um conjunto de ataques adversariais leves que nos permitem refinar o escopo das condições sob as quais os LLMs se desviam de comportamentos normativos ou éticos em conversas. O CoBia cria uma conversa construída na qual o modelo emite uma afirmação tendenciosa sobre um grupo social. Em seguida, avaliamos se o modelo consegue se recuperar da afirmação tendenciosa fabricada e rejeitar perguntas de acompanhamento enviesadas. Avaliamos 11 LLMs de código aberto e proprietários em relação às suas saídas relacionadas a seis categorias sociodemográficas relevantes para a segurança individual e o tratamento justo, ou seja, gênero, raça, religião, nacionalidade, orientação sexual e outras. Nossa avaliação é baseada em métricas de viés estabelecidas para LLMs, e comparamos os resultados com julgamentos humanos para delimitar a confiabilidade e o alinhamento dos LLMs. Os resultados sugerem que conversas intencionalmente construídas revelam de forma confiável a amplificação de viés e que os LLMs frequentemente falham em rejeitar perguntas de acompanhamento enviesadas durante o diálogo. Essa forma de teste de estresse destaca vieses profundamente embutidos que podem ser revelados por meio da interação. O código e os artefatos estão disponíveis em https://github.com/nafisenik/CoBia.
English
Improvements in model construction, including fortified safety guardrails,
allow Large language models (LLMs) to increasingly pass standard safety checks.
However, LLMs sometimes slip into revealing harmful behavior, such as
expressing racist viewpoints, during conversations. To analyze this
systematically, we introduce CoBia, a suite of lightweight adversarial attacks
that allow us to refine the scope of conditions under which LLMs depart from
normative or ethical behavior in conversations. CoBia creates a constructed
conversation where the model utters a biased claim about a social group. We
then evaluate whether the model can recover from the fabricated bias claim and
reject biased follow-up questions. We evaluate 11 open-source as well as
proprietary LLMs for their outputs related to six socio-demographic categories
that are relevant to individual safety and fair treatment, i.e., gender, race,
religion, nationality, sex orientation, and others. Our evaluation is based on
established LLM-based bias metrics, and we compare the results against human
judgments to scope out the LLMs' reliability and alignment. The results suggest
that purposefully constructed conversations reliably reveal bias amplification
and that LLMs often fail to reject biased follow-up questions during dialogue.
This form of stress-testing highlights deeply embedded biases that can be
surfaced through interaction. Code and artifacts are available at
https://github.com/nafisenik/CoBia.