Fale Facilmente: Elicitando Jailbreaks Prejudiciais de LLMs com Interações Simples

Resumo

Apesar dos extensos esforços de alinhamento de segurança, os grandes modelos de linguagem (LLMs) continuam vulneráveis a ataques de jailbreak que provocam comportamentos prejudiciais. Enquanto os estudos existentes predominantemente se concentram em métodos de ataque que exigem expertise técnica, duas questões críticas permanecem pouco exploradas: (1) As respostas de jailbreak são verdadeiramente úteis para permitir que usuários comuns realizem ações prejudiciais? (2) Existem vulnerabilidades de segurança em interações humanos-LLM mais comuns e simples? Neste artigo, demonstramos que as respostas do LLM facilitam de forma mais eficaz ações prejudiciais quando são tanto acionáveis quanto informativas - duas características facilmente obtidas em interações multilíngues de vários passos. Com base nessa percepção, propomos o HarmScore, uma métrica de jailbreak que mede quão efetivamente uma resposta do LLM permite ações prejudiciais, e o Speak Easy, um framework de ataque multilíngue de vários passos simples. Notavelmente, ao incorporar o Speak Easy em baselines de solicitação direta e jailbreak, observamos um aumento absoluto médio de 0.319 na Taxa de Sucesso do Ataque e 0.426 no HarmScore em LLMs de código aberto e proprietários em quatro benchmarks de segurança. Nosso trabalho revela uma vulnerabilidade crítica, porém frequentemente negligenciada: usuários maliciosos podem facilmente explorar padrões de interação comuns para intenções prejudiciais.

English

Despite extensive safety alignment efforts, large language models (LLMs) remain vulnerable to jailbreak attacks that elicit harmful behavior. While existing studies predominantly focus on attack methods that require technical expertise, two critical questions remain underexplored: (1) Are jailbroken responses truly useful in enabling average users to carry out harmful actions? (2) Do safety vulnerabilities exist in more common, simple human-LLM interactions? In this paper, we demonstrate that LLM responses most effectively facilitate harmful actions when they are both actionable and informative--two attributes easily elicited in multi-step, multilingual interactions. Using this insight, we propose HarmScore, a jailbreak metric that measures how effectively an LLM response enables harmful actions, and Speak Easy, a simple multi-step, multilingual attack framework. Notably, by incorporating Speak Easy into direct request and jailbreak baselines, we see an average absolute increase of 0.319 in Attack Success Rate and 0.426 in HarmScore in both open-source and proprietary LLMs across four safety benchmarks. Our work reveals a critical yet often overlooked vulnerability: Malicious users can easily exploit common interaction patterns for harmful intentions.

Fale Facilmente: Elicitando Jailbreaks Prejudiciais de LLMs com Interações Simples

Speak Easy: Eliciting Harmful Jailbreaks from LLMs with Simple Interactions

Resumo

Support