AutoDAN-Turbo: Un agente lifelong per l'auto-esplorazione della strategia per sbloccare LLM
AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs
October 3, 2024
Autori: Xiaogeng Liu, Peiran Li, Edward Suh, Yevgeniy Vorobeychik, Zhuoqing Mao, Somesh Jha, Patrick McDaniel, Huan Sun, Bo Li, Chaowei Xiao
cs.AI
Abstract
In questo articolo, proponiamo AutoDAN-Turbo, un metodo di jailbreak black-box che può scoprire automaticamente il maggior numero possibile di strategie di jailbreak da zero, senza alcun intervento umano o ambiti predefiniti (ad esempio, strategie candidate specificate) e utilizzarle per il red-teaming. Di conseguenza, AutoDAN-Turbo può superare significativamente i metodi di base, raggiungendo un tasso di successo medio degli attacchi del 74,3% superiore sui benchmark pubblici. In particolare, AutoDAN-Turbo raggiunge un tasso di successo degli attacchi dell'88,5 su GPT-4-1106-turbo. Inoltre, AutoDAN-Turbo è un framework unificato che può incorporare le strategie di jailbreak progettate dagli umani esistenti in modo plug-and-play. Integrando le strategie progettate dagli umani, AutoDAN-Turbo può persino raggiungere un tasso di successo degli attacchi più elevato del 93,4 su GPT-4-1106-turbo.
English
In this paper, we propose AutoDAN-Turbo, a black-box jailbreak method that
can automatically discover as many jailbreak strategies as possible from
scratch, without any human intervention or predefined scopes (e.g., specified
candidate strategies), and use them for red-teaming. As a result, AutoDAN-Turbo
can significantly outperform baseline methods, achieving a 74.3% higher average
attack success rate on public benchmarks. Notably, AutoDAN-Turbo achieves an
88.5 attack success rate on GPT-4-1106-turbo. In addition, AutoDAN-Turbo is a
unified framework that can incorporate existing human-designed jailbreak
strategies in a plug-and-play manner. By integrating human-designed strategies,
AutoDAN-Turbo can even achieve a higher attack success rate of 93.4 on
GPT-4-1106-turbo.