AutoDAN-Turbo: Ein lebenslanger Agent zur Selbstexploration von Strategien zur Jailbreak von LLMs.
AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs
October 3, 2024
Autoren: Xiaogeng Liu, Peiran Li, Edward Suh, Yevgeniy Vorobeychik, Zhuoqing Mao, Somesh Jha, Patrick McDaniel, Huan Sun, Bo Li, Chaowei Xiao
cs.AI
Zusammenfassung
In diesem Paper schlagen wir AutoDAN-Turbo vor, eine Black-Box-Jailbreak-Methode, die automatisch so viele Jailbreak-Strategien wie möglich von Grund auf entdecken kann, ohne jegliches menschliches Eingreifen oder vordefinierte Bereiche (z. B. spezifizierte Kandidatenstrategien), und sie für Red-Teaming verwenden kann. Als Ergebnis kann AutoDAN-Turbo signifikant bessere Leistungen als Basisverfahren erzielen und eine durchschnittliche Angriffserfolgsrate von 74,3 % auf öffentlichen Benchmarks erreichen. Bemerkenswert ist, dass AutoDAN-Turbo eine Angriffserfolgsrate von 88,5 % bei GPT-4-1106-turbo erreicht. Darüber hinaus ist AutoDAN-Turbo ein einheitlicher Rahmen, der vorhandene menschlich konzipierte Jailbreak-Strategien auf Plug-and-Play-Art integrieren kann. Durch die Integration von menschlich konzipierten Strategien kann AutoDAN-Turbo sogar eine höhere Angriffserfolgsrate von 93,4 % bei GPT-4-1106-turbo erreichen.
English
In this paper, we propose AutoDAN-Turbo, a black-box jailbreak method that
can automatically discover as many jailbreak strategies as possible from
scratch, without any human intervention or predefined scopes (e.g., specified
candidate strategies), and use them for red-teaming. As a result, AutoDAN-Turbo
can significantly outperform baseline methods, achieving a 74.3% higher average
attack success rate on public benchmarks. Notably, AutoDAN-Turbo achieves an
88.5 attack success rate on GPT-4-1106-turbo. In addition, AutoDAN-Turbo is a
unified framework that can incorporate existing human-designed jailbreak
strategies in a plug-and-play manner. By integrating human-designed strategies,
AutoDAN-Turbo can even achieve a higher attack success rate of 93.4 on
GPT-4-1106-turbo.Summary
AI-Generated Summary