Habla fácil: Elicitando Jailbreaks Dañinos de LLMs con Interacciones Simples

Resumen

A pesar de los extensos esfuerzos de alineación de seguridad, los modelos de lenguaje grandes (LLMs) siguen siendo vulnerables a ataques de jailbreak que provocan un comportamiento perjudicial. Si bien los estudios existentes se centran predominantemente en métodos de ataque que requieren experiencia técnica, dos preguntas críticas permanecen poco exploradas: (1) ¿Son realmente útiles las respuestas de jailbreak para permitir a los usuarios promedio llevar a cabo acciones perjudiciales? (2) ¿Existen vulnerabilidades de seguridad en interacciones humanas-LLM más comunes y simples? En este documento, demostramos que las respuestas de LLM facilitan de manera más efectiva acciones perjudiciales cuando son tanto ejecutables como informativas, dos atributos fácilmente provocados en interacciones multilingües y de múltiples pasos. Utilizando esta perspicacia, proponemos HarmScore, una métrica de jailbreak que mide qué tan efectivamente una respuesta de LLM permite acciones perjudiciales, y Speak Easy, un marco de ataque multilingüe y de múltiples pasos simple. Notablemente, al incorporar Speak Easy en baselines de solicitud directa y jailbreak, observamos un aumento absoluto promedio de 0.319 en la Tasa de Éxito del Ataque y de 0.426 en HarmScore en LLMs de código abierto y propietarios en cuatro benchmarks de seguridad. Nuestro trabajo revela una vulnerabilidad crítica pero a menudo pasada por alto: los usuarios malintencionados pueden explotar fácilmente patrones de interacción comunes con intenciones perjudiciales.

English

Despite extensive safety alignment efforts, large language models (LLMs) remain vulnerable to jailbreak attacks that elicit harmful behavior. While existing studies predominantly focus on attack methods that require technical expertise, two critical questions remain underexplored: (1) Are jailbroken responses truly useful in enabling average users to carry out harmful actions? (2) Do safety vulnerabilities exist in more common, simple human-LLM interactions? In this paper, we demonstrate that LLM responses most effectively facilitate harmful actions when they are both actionable and informative--two attributes easily elicited in multi-step, multilingual interactions. Using this insight, we propose HarmScore, a jailbreak metric that measures how effectively an LLM response enables harmful actions, and Speak Easy, a simple multi-step, multilingual attack framework. Notably, by incorporating Speak Easy into direct request and jailbreak baselines, we see an average absolute increase of 0.319 in Attack Success Rate and 0.426 in HarmScore in both open-source and proprietary LLMs across four safety benchmarks. Our work reveals a critical yet often overlooked vulnerability: Malicious users can easily exploit common interaction patterns for harmful intentions.

Habla fácil: Elicitando Jailbreaks Dañinos de LLMs con Interacciones Simples

Speak Easy: Eliciting Harmful Jailbreaks from LLMs with Simple Interactions

Resumen

Support