Auto-RT : Exploration automatique de stratégies de jailbreak pour le red teaming de grands modèles de langage
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models
January 3, 2025
Auteurs: Yanjiang Liu, Shuhen Zhou, Yaojie Lu, Huijia Zhu, Weiqiang Wang, Hongyu Lin, Ben He, Xianpei Han, Le Sun
cs.AI
Résumé
La simulation automatisée d'attaques, également appelée red-teaming automatisé, est devenue une approche cruciale pour découvrir les vulnérabilités des grands modèles de langage (LLMs). Cependant, la plupart des méthodes existantes se concentrent sur des failles de sécurité isolées, limitant leur capacité à s'adapter aux défenses dynamiques et à découvrir efficacement des vulnérabilités complexes. Pour relever ce défi, nous proposons Auto-RT, un cadre d'apprentissage par renforcement qui explore et optimise automatiquement des stratégies d'attaque complexes pour découvrir efficacement les vulnérabilités de sécurité à travers des requêtes malveillantes. Plus précisément, nous introduisons deux mécanismes clés pour réduire la complexité de l'exploration et améliorer l'optimisation de la stratégie : 1) Exploration à arrêt précoce, qui accélère l'exploration en se concentrant sur les stratégies d'attaque à fort potentiel ; et 2) Algorithme de suivi de récompense progressive avec des modèles de régression intermédiaires, qui affinent dynamiquement la trajectoire de recherche vers l'exploitation réussie des vulnérabilités. Des expériences approfondies menées sur divers LLMs démontrent qu'en améliorant significativement l'efficacité de l'exploration et en optimisant automatiquement les stratégies d'attaque, Auto-RT détecte un éventail plus large de vulnérabilités, atteignant une vitesse de détection plus rapide et des taux de réussite supérieurs de 16,63\% par rapport aux méthodes existantes.
English
Automated red-teaming has become a crucial approach for uncovering
vulnerabilities in large language models (LLMs). However, most existing methods
focus on isolated safety flaws, limiting their ability to adapt to dynamic
defenses and uncover complex vulnerabilities efficiently. To address this
challenge, we propose Auto-RT, a reinforcement learning framework that
automatically explores and optimizes complex attack strategies to effectively
uncover security vulnerabilities through malicious queries. Specifically, we
introduce two key mechanisms to reduce exploration complexity and improve
strategy optimization: 1) Early-terminated Exploration, which accelerate
exploration by focusing on high-potential attack strategies; and 2) Progressive
Reward Tracking algorithm with intermediate downgrade models, which dynamically
refine the search trajectory toward successful vulnerability exploitation.
Extensive experiments across diverse LLMs demonstrate that, by significantly
improving exploration efficiency and automatically optimizing attack
strategies, Auto-RT detects a boarder range of vulnerabilities, achieving a
faster detection speed and 16.63\% higher success rates compared to existing
methods.Summary
AI-Generated Summary