ChatPaper.aiChatPaper

AutoDAN-Turbo: Un agente lifelong per l'auto-esplorazione della strategia per sbloccare LLM

AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs

October 3, 2024
Autori: Xiaogeng Liu, Peiran Li, Edward Suh, Yevgeniy Vorobeychik, Zhuoqing Mao, Somesh Jha, Patrick McDaniel, Huan Sun, Bo Li, Chaowei Xiao
cs.AI

Abstract

In questo articolo, proponiamo AutoDAN-Turbo, un metodo di jailbreak black-box che può scoprire automaticamente il maggior numero possibile di strategie di jailbreak da zero, senza alcun intervento umano o ambiti predefiniti (ad esempio, strategie candidate specificate) e utilizzarle per il red-teaming. Di conseguenza, AutoDAN-Turbo può superare significativamente i metodi di base, raggiungendo un tasso di successo medio degli attacchi del 74,3% superiore sui benchmark pubblici. In particolare, AutoDAN-Turbo raggiunge un tasso di successo degli attacchi dell'88,5 su GPT-4-1106-turbo. Inoltre, AutoDAN-Turbo è un framework unificato che può incorporare le strategie di jailbreak progettate dagli umani esistenti in modo plug-and-play. Integrando le strategie progettate dagli umani, AutoDAN-Turbo può persino raggiungere un tasso di successo degli attacchi più elevato del 93,4 su GPT-4-1106-turbo.
English
In this paper, we propose AutoDAN-Turbo, a black-box jailbreak method that can automatically discover as many jailbreak strategies as possible from scratch, without any human intervention or predefined scopes (e.g., specified candidate strategies), and use them for red-teaming. As a result, AutoDAN-Turbo can significantly outperform baseline methods, achieving a 74.3% higher average attack success rate on public benchmarks. Notably, AutoDAN-Turbo achieves an 88.5 attack success rate on GPT-4-1106-turbo. In addition, AutoDAN-Turbo is a unified framework that can incorporate existing human-designed jailbreak strategies in a plug-and-play manner. By integrating human-designed strategies, AutoDAN-Turbo can even achieve a higher attack success rate of 93.4 on GPT-4-1106-turbo.
PDF123November 16, 2024