¿Los LLMs tienen corrección política? Analizando sesgos éticos y vulnerabilidades de jailbreak en sistemas de IA.

Resumen

Aunque los modelos de lenguaje grandes (LLMs) demuestran una impresionante competencia en diversas tareas, presentan posibles riesgos de seguridad, como los 'jailbreaks', donde entradas maliciosas pueden obligar a los LLMs a generar contenido dañino. Para abordar estos problemas, muchos desarrolladores de LLM han implementado diversas medidas de seguridad para alinear estos modelos. Esta alineación implica varias técnicas, incluyendo filtrado de datos durante el pre-entrenamiento, ajuste fino supervisado, aprendizaje por refuerzo a partir de retroalimentación humana y ejercicios de red teaming. Estos métodos a menudo introducen sesgos deliberados e intencionales similares a la Corrección Política (PC) para garantizar el comportamiento ético de los LLMs. En este documento, profundizamos en los sesgos intencionales inyectados en los LLMs con fines de seguridad y examinamos métodos para eludir estas técnicas de alineación de seguridad. Especialmente, estos sesgos intencionales resultan en una tasa de éxito de jailbreaking en los modelos GPT-4o que difiere en un 20% entre palabras clave no binarias y cisgénero y en un 16% entre palabras clave blancas y negras, incluso cuando otras partes de las indicaciones son idénticas. Introducimos el concepto de PCJailbreak, resaltando los riesgos inherentes que plantean estos sesgos inducidos por la seguridad. Además, proponemos un método de defensa eficiente, PCDefense, que previene intentos de jailbreak inyectando indicaciones de defensa antes de la generación. PCDefense se presenta como una alternativa atractiva a los Modelos de Guardia, como Llama-Guard, que requieren un costo adicional de inferencia después de la generación de texto. Nuestros hallazgos enfatizan la necesidad urgente de que los desarrolladores de LLM adopten un enfoque más responsable al diseñar e implementar medidas de seguridad.

English

Although large language models (LLMs) demonstrate impressive proficiency in various tasks, they present potential safety risks, such as `jailbreaks', where malicious inputs can coerce LLMs into generating harmful content. To address these issues, many LLM developers have implemented various safety measures to align these models. This alignment involves several techniques, including data filtering during pre-training, supervised fine-tuning, reinforcement learning from human feedback, and red-teaming exercises. These methods often introduce deliberate and intentional biases similar to Political Correctness (PC) to ensure the ethical behavior of LLMs. In this paper, we delve into the intentional biases injected into LLMs for safety purposes and examine methods to circumvent these safety alignment techniques. Notably, these intentional biases result in a jailbreaking success rate in GPT-4o models that differs by 20% between non-binary and cisgender keywords and by 16% between white and black keywords, even when the other parts of the prompts are identical. We introduce the concept of PCJailbreak, highlighting the inherent risks posed by these safety-induced biases. Additionally, we propose an efficient defense method PCDefense, which prevents jailbreak attempts by injecting defense prompts prior to generation. PCDefense stands as an appealing alternative to Guard Models, such as Llama-Guard, that require additional inference cost after text generation. Our findings emphasize the urgent need for LLM developers to adopt a more responsible approach when designing and implementing safety measures.

¿Los LLMs tienen corrección política? Analizando sesgos éticos y vulnerabilidades de jailbreak en sistemas de IA.

Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems

Resumen

Support