AutoDAN-Turbo: LLMs를 탈옥하기 위한 전략 자가 탐구를 위한 평생 학습 에이전트
AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs
October 3, 2024
저자: Xiaogeng Liu, Peiran Li, Edward Suh, Yevgeniy Vorobeychik, Zhuoqing Mao, Somesh Jha, Patrick McDaniel, Huan Sun, Bo Li, Chaowei Xiao
cs.AI
초록
본 논문에서는 AutoDAN-Turbo를 제안합니다. 이는 사람의 개입이나 미리 정의된 범위(예: 특정한 후보 전략) 없이 처음부터 가능한 많은 탈옥 전략을 자동으로 발견하고, 그것들을 레드팀 활동에 활용할 수 있는 블랙박스 탈옥 방법입니다. 결과적으로 AutoDAN-Turbo는 기본 방법을 크게 능가하여, 공개 벤치마크에서 평균 공격 성공률이 74.3% 더 높게 달성합니다. 특히, AutoDAN-Turbo는 GPT-4-1106-turbo에서 88.5%의 공격 성공률을 달성합니다. 또한, AutoDAN-Turbo는 기존의 사람이 디자인한 탈옥 전략을 플러그 앤 플레이 방식으로 통합할 수 있는 통합된 프레임워크입니다. 사람이 디자인한 전략을 통합함으로써, AutoDAN-Turbo는 GPT-4-1106-turbo에서 심지어 93.4%의 더 높은 공격 성공률을 달성할 수 있습니다.
English
In this paper, we propose AutoDAN-Turbo, a black-box jailbreak method that
can automatically discover as many jailbreak strategies as possible from
scratch, without any human intervention or predefined scopes (e.g., specified
candidate strategies), and use them for red-teaming. As a result, AutoDAN-Turbo
can significantly outperform baseline methods, achieving a 74.3% higher average
attack success rate on public benchmarks. Notably, AutoDAN-Turbo achieves an
88.5 attack success rate on GPT-4-1106-turbo. In addition, AutoDAN-Turbo is a
unified framework that can incorporate existing human-designed jailbreak
strategies in a plug-and-play manner. By integrating human-designed strategies,
AutoDAN-Turbo can even achieve a higher attack success rate of 93.4 on
GPT-4-1106-turbo.Summary
AI-Generated Summary