Os LLMs Possuem Correção Política? Analisando Viés Ético e Vulnerabilidades de Desbloqueio em Sistemas de IA
Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems
October 17, 2024
Autores: Isack Lee, Haebin Seong
cs.AI
Resumo
Embora os grandes modelos de linguagem (LLMs) demonstrem uma impressionante proficiência em diversas tarefas, eles apresentam potenciais riscos de segurança, como 'jailbreaks', nos quais inputs maliciosos podem forçar os LLMs a gerar conteúdo prejudicial. Para lidar com essas questões, muitos desenvolvedores de LLM implementaram diversas medidas de segurança para alinhar esses modelos. Esse alinhamento envolve várias técnicas, incluindo filtragem de dados durante o pré-treinamento, ajuste fino supervisionado, aprendizado por reforço a partir do feedback humano e exercícios de red teaming. Esses métodos frequentemente introduzem vieses deliberados e intencionais semelhantes à Correção Política (PC) para garantir o comportamento ético dos LLMs. Neste artigo, aprofundamos os vieses intencionais injetados nos LLMs para fins de segurança e examinamos métodos para contornar essas técnicas de alinhamento de segurança. Notavelmente, esses vieses intencionais resultam em uma taxa de sucesso de jailbreaking nos modelos GPT-4o que difere em 20% entre palavras-chave não binárias e cisgêneras e em 16% entre palavras-chave brancas e negras, mesmo quando as outras partes dos prompts são idênticas. Introduzimos o conceito de PCJailbreak, destacando os riscos inerentes causados por esses vieses induzidos pela segurança. Além disso, propomos um método de defesa eficiente, PCDefense, que previne tentativas de jailbreak injetando prompts de defesa antes da geração. PCDefense se apresenta como uma alternativa atraente aos Modelos de Guarda, como o Llama-Guard, que exigem custo adicional de inferência após a geração de texto. Nossas descobertas enfatizam a necessidade urgente de os desenvolvedores de LLM adotarem uma abordagem mais responsável ao projetar e implementar medidas de segurança.
English
Although large language models (LLMs) demonstrate impressive proficiency in
various tasks, they present potential safety risks, such as `jailbreaks', where
malicious inputs can coerce LLMs into generating harmful content. To address
these issues, many LLM developers have implemented various safety measures to
align these models. This alignment involves several techniques, including data
filtering during pre-training, supervised fine-tuning, reinforcement learning
from human feedback, and red-teaming exercises. These methods often introduce
deliberate and intentional biases similar to Political Correctness (PC) to
ensure the ethical behavior of LLMs. In this paper, we delve into the
intentional biases injected into LLMs for safety purposes and examine methods
to circumvent these safety alignment techniques. Notably, these intentional
biases result in a jailbreaking success rate in GPT-4o models that differs by
20% between non-binary and cisgender keywords and by 16% between white and
black keywords, even when the other parts of the prompts are identical. We
introduce the concept of PCJailbreak, highlighting the inherent risks posed by
these safety-induced biases. Additionally, we propose an efficient defense
method PCDefense, which prevents jailbreak attempts by injecting defense
prompts prior to generation. PCDefense stands as an appealing alternative to
Guard Models, such as Llama-Guard, that require additional inference cost after
text generation. Our findings emphasize the urgent need for LLM developers to
adopt a more responsible approach when designing and implementing safety
measures.Summary
AI-Generated Summary