AutoDAN-Turbo : Un agent à vie pour l'auto-exploration de stratégies afin de débloquer les LLM
AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs
October 3, 2024
Auteurs: Xiaogeng Liu, Peiran Li, Edward Suh, Yevgeniy Vorobeychik, Zhuoqing Mao, Somesh Jha, Patrick McDaniel, Huan Sun, Bo Li, Chaowei Xiao
cs.AI
Résumé
Dans cet article, nous proposons AutoDAN-Turbo, une méthode de jailbreak en boîte noire qui peut découvrir automatiquement autant de stratégies de jailbreak que possible à partir de zéro, sans aucune intervention humaine ou portées prédéfinies (par exemple, des stratégies de candidats spécifiées), et les utiliser pour des tests d'intrusion. En conséquence, AutoDAN-Turbo peut surpasser significativement les méthodes de référence, atteignant un taux de réussite moyen d'attaque 74,3% plus élevé sur des benchmarks publics. Notamment, AutoDAN-Turbo atteint un taux de réussite d'attaque de 88,5% sur GPT-4-1106-turbo. De plus, AutoDAN-Turbo est un cadre unifié qui peut incorporer des stratégies de jailbreak existantes conçues par des humains de manière plug-and-play. En intégrant des stratégies conçues par des humains, AutoDAN-Turbo peut même atteindre un taux de réussite d'attaque plus élevé de 93,4% sur GPT-4-1106-turbo.
English
In this paper, we propose AutoDAN-Turbo, a black-box jailbreak method that
can automatically discover as many jailbreak strategies as possible from
scratch, without any human intervention or predefined scopes (e.g., specified
candidate strategies), and use them for red-teaming. As a result, AutoDAN-Turbo
can significantly outperform baseline methods, achieving a 74.3% higher average
attack success rate on public benchmarks. Notably, AutoDAN-Turbo achieves an
88.5 attack success rate on GPT-4-1106-turbo. In addition, AutoDAN-Turbo is a
unified framework that can incorporate existing human-designed jailbreak
strategies in a plug-and-play manner. By integrating human-designed strategies,
AutoDAN-Turbo can even achieve a higher attack success rate of 93.4 on
GPT-4-1106-turbo.Summary
AI-Generated Summary