ChatPaper.aiChatPaper

AutoDAN-Turbo:LLMのジェイルブレイクのための戦略的自己探索のためのライフロングエージェント

AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs

October 3, 2024
著者: Xiaogeng Liu, Peiran Li, Edward Suh, Yevgeniy Vorobeychik, Zhuoqing Mao, Somesh Jha, Patrick McDaniel, Huan Sun, Bo Li, Chaowei Xiao
cs.AI

要旨

本論文では、人間の介入や事前定義されたスコープ(例:指定された候補戦略)なしに、ゼロからできるだけ多くのジェイルブレイク戦略を自動的に発見し、それらをレッドチーミングに使用することができるブラックボックスのジェイルブレイク手法であるAutoDAN-Turboを提案します。その結果、AutoDAN-Turboは、公開されているベンチマークにおいて、基準となる手法を大幅に上回り、平均攻撃成功率が74.3%高い値を達成します。特筆すべきは、AutoDAN-TurboがGPT-4-1106-turboにおいて88.5%の攻撃成功率を達成していることです。さらに、AutoDAN-Turboは、既存の人間によって設計されたジェイルブレイク戦略をプラグアンドプレイの方法で統合できる統一されたフレームワークです。人間によって設計された戦略を統合することで、AutoDAN-TurboはGPT-4-1106-turboにおいて93.4%というより高い攻撃成功率を達成することさえ可能です。
English
In this paper, we propose AutoDAN-Turbo, a black-box jailbreak method that can automatically discover as many jailbreak strategies as possible from scratch, without any human intervention or predefined scopes (e.g., specified candidate strategies), and use them for red-teaming. As a result, AutoDAN-Turbo can significantly outperform baseline methods, achieving a 74.3% higher average attack success rate on public benchmarks. Notably, AutoDAN-Turbo achieves an 88.5 attack success rate on GPT-4-1106-turbo. In addition, AutoDAN-Turbo is a unified framework that can incorporate existing human-designed jailbreak strategies in a plug-and-play manner. By integrating human-designed strategies, AutoDAN-Turbo can even achieve a higher attack success rate of 93.4 on GPT-4-1106-turbo.

Summary

AI-Generated Summary

PDF123November 16, 2024