Os LLMs Possuem Correção Política? Analisando Viés Ético e Vulnerabilidades de Desbloqueio em Sistemas de IA

Resumo

Embora os grandes modelos de linguagem (LLMs) demonstrem uma impressionante proficiência em diversas tarefas, eles apresentam potenciais riscos de segurança, como 'jailbreaks', nos quais inputs maliciosos podem forçar os LLMs a gerar conteúdo prejudicial. Para lidar com essas questões, muitos desenvolvedores de LLM implementaram diversas medidas de segurança para alinhar esses modelos. Esse alinhamento envolve várias técnicas, incluindo filtragem de dados durante o pré-treinamento, ajuste fino supervisionado, aprendizado por reforço a partir do feedback humano e exercícios de red teaming. Esses métodos frequentemente introduzem vieses deliberados e intencionais semelhantes à Correção Política (PC) para garantir o comportamento ético dos LLMs. Neste artigo, aprofundamos os vieses intencionais injetados nos LLMs para fins de segurança e examinamos métodos para contornar essas técnicas de alinhamento de segurança. Notavelmente, esses vieses intencionais resultam em uma taxa de sucesso de jailbreaking nos modelos GPT-4o que difere em 20% entre palavras-chave não binárias e cisgêneras e em 16% entre palavras-chave brancas e negras, mesmo quando as outras partes dos prompts são idênticas. Introduzimos o conceito de PCJailbreak, destacando os riscos inerentes causados por esses vieses induzidos pela segurança. Além disso, propomos um método de defesa eficiente, PCDefense, que previne tentativas de jailbreak injetando prompts de defesa antes da geração. PCDefense se apresenta como uma alternativa atraente aos Modelos de Guarda, como o Llama-Guard, que exigem custo adicional de inferência após a geração de texto. Nossas descobertas enfatizam a necessidade urgente de os desenvolvedores de LLM adotarem uma abordagem mais responsável ao projetar e implementar medidas de segurança.

English

Although large language models (LLMs) demonstrate impressive proficiency in various tasks, they present potential safety risks, such as `jailbreaks', where malicious inputs can coerce LLMs into generating harmful content. To address these issues, many LLM developers have implemented various safety measures to align these models. This alignment involves several techniques, including data filtering during pre-training, supervised fine-tuning, reinforcement learning from human feedback, and red-teaming exercises. These methods often introduce deliberate and intentional biases similar to Political Correctness (PC) to ensure the ethical behavior of LLMs. In this paper, we delve into the intentional biases injected into LLMs for safety purposes and examine methods to circumvent these safety alignment techniques. Notably, these intentional biases result in a jailbreaking success rate in GPT-4o models that differs by 20% between non-binary and cisgender keywords and by 16% between white and black keywords, even when the other parts of the prompts are identical. We introduce the concept of PCJailbreak, highlighting the inherent risks posed by these safety-induced biases. Additionally, we propose an efficient defense method PCDefense, which prevents jailbreak attempts by injecting defense prompts prior to generation. PCDefense stands as an appealing alternative to Guard Models, such as Llama-Guard, that require additional inference cost after text generation. Our findings emphasize the urgent need for LLM developers to adopt a more responsible approach when designing and implementing safety measures.

Os LLMs Possuem Correção Política? Analisando Viés Ético e Vulnerabilidades de Desbloqueio em Sistemas de IA

Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems

Resumo

Support