¿Los LLMs tienen corrección política? Analizando sesgos éticos y vulnerabilidades de jailbreak en sistemas de IA.
Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems
October 17, 2024
Autores: Isack Lee, Haebin Seong
cs.AI
Resumen
Aunque los modelos de lenguaje grandes (LLMs) demuestran una impresionante competencia en diversas tareas, presentan posibles riesgos de seguridad, como los 'jailbreaks', donde entradas maliciosas pueden obligar a los LLMs a generar contenido dañino. Para abordar estos problemas, muchos desarrolladores de LLM han implementado diversas medidas de seguridad para alinear estos modelos. Esta alineación implica varias técnicas, incluyendo filtrado de datos durante el pre-entrenamiento, ajuste fino supervisado, aprendizaje por refuerzo a partir de retroalimentación humana y ejercicios de red teaming. Estos métodos a menudo introducen sesgos deliberados e intencionales similares a la Corrección Política (PC) para garantizar el comportamiento ético de los LLMs. En este documento, profundizamos en los sesgos intencionales inyectados en los LLMs con fines de seguridad y examinamos métodos para eludir estas técnicas de alineación de seguridad. Especialmente, estos sesgos intencionales resultan en una tasa de éxito de jailbreaking en los modelos GPT-4o que difiere en un 20% entre palabras clave no binarias y cisgénero y en un 16% entre palabras clave blancas y negras, incluso cuando otras partes de las indicaciones son idénticas. Introducimos el concepto de PCJailbreak, resaltando los riesgos inherentes que plantean estos sesgos inducidos por la seguridad. Además, proponemos un método de defensa eficiente, PCDefense, que previene intentos de jailbreak inyectando indicaciones de defensa antes de la generación. PCDefense se presenta como una alternativa atractiva a los Modelos de Guardia, como Llama-Guard, que requieren un costo adicional de inferencia después de la generación de texto. Nuestros hallazgos enfatizan la necesidad urgente de que los desarrolladores de LLM adopten un enfoque más responsable al diseñar e implementar medidas de seguridad.
English
Although large language models (LLMs) demonstrate impressive proficiency in
various tasks, they present potential safety risks, such as `jailbreaks', where
malicious inputs can coerce LLMs into generating harmful content. To address
these issues, many LLM developers have implemented various safety measures to
align these models. This alignment involves several techniques, including data
filtering during pre-training, supervised fine-tuning, reinforcement learning
from human feedback, and red-teaming exercises. These methods often introduce
deliberate and intentional biases similar to Political Correctness (PC) to
ensure the ethical behavior of LLMs. In this paper, we delve into the
intentional biases injected into LLMs for safety purposes and examine methods
to circumvent these safety alignment techniques. Notably, these intentional
biases result in a jailbreaking success rate in GPT-4o models that differs by
20% between non-binary and cisgender keywords and by 16% between white and
black keywords, even when the other parts of the prompts are identical. We
introduce the concept of PCJailbreak, highlighting the inherent risks posed by
these safety-induced biases. Additionally, we propose an efficient defense
method PCDefense, which prevents jailbreak attempts by injecting defense
prompts prior to generation. PCDefense stands as an appealing alternative to
Guard Models, such as Llama-Guard, that require additional inference cost after
text generation. Our findings emphasize the urgent need for LLM developers to
adopt a more responsible approach when designing and implementing safety
measures.Summary
AI-Generated Summary