Общение без усилий: Вызов вредоносных джейлбрейков от LLMs с помощью простых взаимодействий
Speak Easy: Eliciting Harmful Jailbreaks from LLMs with Simple Interactions
February 6, 2025
Авторы: Yik Siu Chan, Narutatsu Ri, Yuxin Xiao, Marzyeh Ghassemi
cs.AI
Аннотация
Несмотря на обширные усилия по обеспечению безопасности, большие языковые модели (LLM) остаются уязвимыми для атак взлома, которые могут вызвать вредное поведение. В то время как существующие исследования в основном сосредотачиваются на методах атак, требующих технической экспертизы, остаются недостаточно исследованными два критических вопроса: (1) Действительно ли взломанные ответы полезны для обычных пользователей для совершения вредных действий? (2) Существуют ли уязвимости безопасности в более распространенных, простых человеко-LLM взаимодействиях? В данной статье мы демонстрируем, что ответы LLM наиболее эффективно облегчают вредные действия, когда они являются действенными и информативными - два атрибута, легко вызываемые в многоэтапных, многоязычных взаимодействиях. Исходя из этого, мы предлагаем метрику взлома HarmScore, измеряющую эффективность ответа LLM в облегчении вредных действий, а также Speak Easy, простую многоэтапную, многоязычную атакующую структуру. Значительно, внедрив Speak Easy в базовые прямого запроса и взлома, мы видим средний абсолютный прирост 0.319 в Успешности Атаки и 0.426 в HarmScore как в открытых, так и в закрытых LLM на четырех бенчмарках безопасности. Наша работа раскрывает критическую, но часто пренебрегаемую уязвимость: Злоумышленники могут легко злоупотреблять общими шаблонами взаимодействия для вредных намерений.
English
Despite extensive safety alignment efforts, large language models (LLMs)
remain vulnerable to jailbreak attacks that elicit harmful behavior. While
existing studies predominantly focus on attack methods that require technical
expertise, two critical questions remain underexplored: (1) Are jailbroken
responses truly useful in enabling average users to carry out harmful actions?
(2) Do safety vulnerabilities exist in more common, simple human-LLM
interactions? In this paper, we demonstrate that LLM responses most effectively
facilitate harmful actions when they are both actionable and informative--two
attributes easily elicited in multi-step, multilingual interactions. Using this
insight, we propose HarmScore, a jailbreak metric that measures how effectively
an LLM response enables harmful actions, and Speak Easy, a simple multi-step,
multilingual attack framework. Notably, by incorporating Speak Easy into direct
request and jailbreak baselines, we see an average absolute increase of 0.319
in Attack Success Rate and 0.426 in HarmScore in both open-source and
proprietary LLMs across four safety benchmarks. Our work reveals a critical yet
often overlooked vulnerability: Malicious users can easily exploit common
interaction patterns for harmful intentions.Summary
AI-Generated Summary