ChatPaper.aiChatPaper

Makkelijk praten: Het uitlokken van schadelijke jailbreaks vanuit LLM's met eenvoudige interacties

Speak Easy: Eliciting Harmful Jailbreaks from LLMs with Simple Interactions

February 6, 2025
Auteurs: Yik Siu Chan, Narutatsu Ri, Yuxin Xiao, Marzyeh Ghassemi
cs.AI

Samenvatting

Ondanks uitgebreide inspanningen op het gebied van veiligheidsafstemming blijven grote taalmodellen (LLM's) kwetsbaar voor jailbreak-aanvallen die schadelijk gedrag uitlokken. Terwijl bestaande studies voornamelijk gericht zijn op aanvalsmethoden die technische expertise vereisen, blijven twee cruciale vragen onderbelicht: (1) Zijn jailbreak-reacties daadwerkelijk nuttig om gemiddelde gebruikers in staat te stellen schadelijke acties uit te voeren? (2) Bestaan er veiligheidskwetsbaarheden in meer gangbare, eenvoudige mens-LLM-interacties? In dit artikel tonen we aan dat LLM-reacties het meest effectief schadelijke acties faciliteren wanneer ze zowel uitvoerbaar als informatief zijn - twee eigenschappen die gemakkelijk kunnen worden uitgelokt in meerstaps, meertalige interacties. Met behulp van deze inzichten stellen we HarmScore voor, een jailbreak-metriek die meet hoe effectief een LLM-reactie schadelijke acties mogelijk maakt, en Speak Easy, een eenvoudig meerstaps, meertalig aanvalskader. Opmerkelijk is dat door Speak Easy op te nemen in directe verzoeken en jailbreak-baselines, we een gemiddelde absolute toename zien van 0.319 in Aanvalssuccespercentage en 0.426 in HarmScore in zowel open-source als eigendoms-LLM's over vier veiligheidsbenchmarks. Ons werk onthult een kritieke maar vaak over het hoofd geziene kwetsbaarheid: kwaadwillende gebruikers kunnen gemakkelijk gangbare interactiepatronen exploiteren voor schadelijke bedoelingen.
English
Despite extensive safety alignment efforts, large language models (LLMs) remain vulnerable to jailbreak attacks that elicit harmful behavior. While existing studies predominantly focus on attack methods that require technical expertise, two critical questions remain underexplored: (1) Are jailbroken responses truly useful in enabling average users to carry out harmful actions? (2) Do safety vulnerabilities exist in more common, simple human-LLM interactions? In this paper, we demonstrate that LLM responses most effectively facilitate harmful actions when they are both actionable and informative--two attributes easily elicited in multi-step, multilingual interactions. Using this insight, we propose HarmScore, a jailbreak metric that measures how effectively an LLM response enables harmful actions, and Speak Easy, a simple multi-step, multilingual attack framework. Notably, by incorporating Speak Easy into direct request and jailbreak baselines, we see an average absolute increase of 0.319 in Attack Success Rate and 0.426 in HarmScore in both open-source and proprietary LLMs across four safety benchmarks. Our work reveals a critical yet often overlooked vulnerability: Malicious users can easily exploit common interaction patterns for harmful intentions.

Summary

AI-Generated Summary

PDF32February 7, 2025