Parla Facile: Elicitazione di Jailbreak Dannosi da LLMs con Interazioni Semplici

Abstract

Nonostante gli ampi sforzi di allineamento della sicurezza, i grandi modelli linguistici (LLM) rimangono vulnerabili agli attacchi di jailbreak che inducono comportamenti dannosi. Mentre gli studi esistenti si concentrano principalmente sui metodi di attacco che richiedono competenze tecniche, due domande critiche rimangono poco esplorate: (1) Le risposte jailbroken sono veramente utili nel consentire agli utenti medi di compiere azioni dannose? (2) Esistono vulnerabilità di sicurezza nelle interazioni umano-LLM più comuni e semplici? In questo articolo, dimostriamo che le risposte LLM facilitano in modo più efficace azioni dannose quando sono entrambe eseguibili e informative - due attributi facilmente ottenibili in interazioni multistep e multilingue. Utilizzando questa intuizione, proponiamo HarmScore, una metrica di jailbreak che misura quanto efficacemente una risposta LLM consente azioni dannose, e Speak Easy, un semplice framework di attacco multistep e multilingue. In particolare, incorporando Speak Easy nei baselines di richiesta diretta e jailbreak, osserviamo un aumento assoluto medio del 0.319 nel tasso di successo degli attacchi e del 0.426 in HarmScore sia nei LLM open-source che proprietari su quattro benchmark di sicurezza. Il nostro lavoro rivela una vulnerabilità critica ma spesso trascurata: gli utenti malintenzionati possono facilmente sfruttare schemi di interazione comuni per intenzioni dannose.

English

Despite extensive safety alignment efforts, large language models (LLMs) remain vulnerable to jailbreak attacks that elicit harmful behavior. While existing studies predominantly focus on attack methods that require technical expertise, two critical questions remain underexplored: (1) Are jailbroken responses truly useful in enabling average users to carry out harmful actions? (2) Do safety vulnerabilities exist in more common, simple human-LLM interactions? In this paper, we demonstrate that LLM responses most effectively facilitate harmful actions when they are both actionable and informative--two attributes easily elicited in multi-step, multilingual interactions. Using this insight, we propose HarmScore, a jailbreak metric that measures how effectively an LLM response enables harmful actions, and Speak Easy, a simple multi-step, multilingual attack framework. Notably, by incorporating Speak Easy into direct request and jailbreak baselines, we see an average absolute increase of 0.319 in Attack Success Rate and 0.426 in HarmScore in both open-source and proprietary LLMs across four safety benchmarks. Our work reveals a critical yet often overlooked vulnerability: Malicious users can easily exploit common interaction patterns for harmful intentions.

Parla Facile: Elicitazione di Jailbreak Dannosi da LLMs con Interazioni Semplici

Speak Easy: Eliciting Harmful Jailbreaks from LLMs with Simple Interactions

Abstract

Support