Fale Facilmente: Elicitando Jailbreaks Prejudiciais de LLMs com Interações Simples
Speak Easy: Eliciting Harmful Jailbreaks from LLMs with Simple Interactions
February 6, 2025
Autores: Yik Siu Chan, Narutatsu Ri, Yuxin Xiao, Marzyeh Ghassemi
cs.AI
Resumo
Apesar dos extensos esforços de alinhamento de segurança, os grandes modelos de linguagem (LLMs) continuam vulneráveis a ataques de jailbreak que provocam comportamentos prejudiciais. Enquanto os estudos existentes predominantemente se concentram em métodos de ataque que exigem expertise técnica, duas questões críticas permanecem pouco exploradas: (1) As respostas de jailbreak são verdadeiramente úteis para permitir que usuários comuns realizem ações prejudiciais? (2) Existem vulnerabilidades de segurança em interações humanos-LLM mais comuns e simples? Neste artigo, demonstramos que as respostas do LLM facilitam de forma mais eficaz ações prejudiciais quando são tanto acionáveis quanto informativas - duas características facilmente obtidas em interações multilíngues de vários passos. Com base nessa percepção, propomos o HarmScore, uma métrica de jailbreak que mede quão efetivamente uma resposta do LLM permite ações prejudiciais, e o Speak Easy, um framework de ataque multilíngue de vários passos simples. Notavelmente, ao incorporar o Speak Easy em baselines de solicitação direta e jailbreak, observamos um aumento absoluto médio de 0.319 na Taxa de Sucesso do Ataque e 0.426 no HarmScore em LLMs de código aberto e proprietários em quatro benchmarks de segurança. Nosso trabalho revela uma vulnerabilidade crítica, porém frequentemente negligenciada: usuários maliciosos podem facilmente explorar padrões de interação comuns para intenções prejudiciais.
English
Despite extensive safety alignment efforts, large language models (LLMs)
remain vulnerable to jailbreak attacks that elicit harmful behavior. While
existing studies predominantly focus on attack methods that require technical
expertise, two critical questions remain underexplored: (1) Are jailbroken
responses truly useful in enabling average users to carry out harmful actions?
(2) Do safety vulnerabilities exist in more common, simple human-LLM
interactions? In this paper, we demonstrate that LLM responses most effectively
facilitate harmful actions when they are both actionable and informative--two
attributes easily elicited in multi-step, multilingual interactions. Using this
insight, we propose HarmScore, a jailbreak metric that measures how effectively
an LLM response enables harmful actions, and Speak Easy, a simple multi-step,
multilingual attack framework. Notably, by incorporating Speak Easy into direct
request and jailbreak baselines, we see an average absolute increase of 0.319
in Attack Success Rate and 0.426 in HarmScore in both open-source and
proprietary LLMs across four safety benchmarks. Our work reveals a critical yet
often overlooked vulnerability: Malicious users can easily exploit common
interaction patterns for harmful intentions.Summary
AI-Generated Summary