Parler facilement : Susciter des jailbreaks nuisibles des LLMs avec des interactions simples
Speak Easy: Eliciting Harmful Jailbreaks from LLMs with Simple Interactions
February 6, 2025
Auteurs: Yik Siu Chan, Narutatsu Ri, Yuxin Xiao, Marzyeh Ghassemi
cs.AI
Résumé
Malgré les efforts considérables de sécurisation, les grands modèles de langage (GML) restent vulnérables aux attaques de jailbreak qui provoquent des comportements nuisibles. Alors que les études existantes se concentrent principalement sur les méthodes d'attaque nécessitant une expertise technique, deux questions cruciales restent peu explorées : (1) Les réponses jailbreak sont-elles réellement utiles pour permettre aux utilisateurs moyens d'effectuer des actions nuisibles ? (2) Existe-t-il des vulnérabilités de sécurité dans les interactions plus courantes et simples entre les humains et les GML ? Dans cet article, nous démontrons que les réponses des GML facilitent le plus efficacement les actions nuisibles lorsqu'elles sont à la fois actionnables et informatives - deux attributs facilement obtenus dans des interactions multilingues et multi-étapes. En utilisant cette observation, nous proposons HarmScore, une métrique de jailbreak mesurant l'efficacité d'une réponse de GML à faciliter des actions nuisibles, et Speak Easy, un cadre d'attaque multilingue et multi-étapes simple. Notamment, en incorporant Speak Easy dans les références de demande directe et de jailbreak, nous observons une augmentation absolue moyenne de 0,319 du taux de réussite de l'attaque et de 0,426 du HarmScore dans les GML open-source et propriétaires à travers quatre critères de sécurité. Notre travail révèle une vulnérabilité critique mais souvent négligée : les utilisateurs malveillants peuvent facilement exploiter des schémas d'interaction courants à des fins nuisibles.
English
Despite extensive safety alignment efforts, large language models (LLMs)
remain vulnerable to jailbreak attacks that elicit harmful behavior. While
existing studies predominantly focus on attack methods that require technical
expertise, two critical questions remain underexplored: (1) Are jailbroken
responses truly useful in enabling average users to carry out harmful actions?
(2) Do safety vulnerabilities exist in more common, simple human-LLM
interactions? In this paper, we demonstrate that LLM responses most effectively
facilitate harmful actions when they are both actionable and informative--two
attributes easily elicited in multi-step, multilingual interactions. Using this
insight, we propose HarmScore, a jailbreak metric that measures how effectively
an LLM response enables harmful actions, and Speak Easy, a simple multi-step,
multilingual attack framework. Notably, by incorporating Speak Easy into direct
request and jailbreak baselines, we see an average absolute increase of 0.319
in Attack Success Rate and 0.426 in HarmScore in both open-source and
proprietary LLMs across four safety benchmarks. Our work reveals a critical yet
often overlooked vulnerability: Malicious users can easily exploit common
interaction patterns for harmful intentions.Summary
AI-Generated Summary