Auto-RT: Automatische Strategieerkundung für das Jailbreaken großer Sprachmodelle im Red-Teaming
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models
January 3, 2025
Autoren: Yanjiang Liu, Shuhen Zhou, Yaojie Lu, Huijia Zhu, Weiqiang Wang, Hongyu Lin, Ben He, Xianpei Han, Le Sun
cs.AI
Zusammenfassung
Die automatisierte Red-Teaming ist zu einem entscheidenden Ansatz geworden, um Schwachstellen in großen Sprachmodellen (LLMs) aufzudecken. Die meisten bestehenden Methoden konzentrieren sich jedoch auf isolierte Sicherheitsmängel, was ihre Fähigkeit einschränkt, sich an dynamische Verteidigungen anzupassen und komplexe Schwachstellen effizient aufzudecken. Um diese Herausforderung anzugehen, schlagen wir Auto-RT vor, ein Framework des reinforcement learning, das automatisch komplexe Angriffsstrategien erforscht und optimiert, um Sicherheitslücken effektiv durch bösartige Abfragen aufzudecken. Insbesondere führen wir zwei Schlüsselmechanismen ein, um die Komplexität der Exploration zu reduzieren und die Strategieoptimierung zu verbessern: 1) Frühzeitig beendete Exploration, die die Exploration beschleunigt, indem sie sich auf vielversprechende Angriffsstrategien konzentriert; und 2) Das Progressive Reward Tracking-Algorithmus mit Zwischenabstufungsmodellen, die die Suche dynamisch verfeinern, um eine erfolgreiche Ausnutzung von Sicherheitslücken zu erreichen. Umfangreiche Experimente über verschiedene LLMs hinweg zeigen, dass Auto-RT durch signifikante Verbesserungen der Explorations-Effizienz und automatische Optimierung von Angriffsstrategien einen breiteren Bereich von Schwachstellen erkennt, eine schnellere Entdeckungsgeschwindigkeit erreicht und eine Erfolgsrate von 16,63\% höher im Vergleich zu bestehenden Methoden erzielt.
English
Automated red-teaming has become a crucial approach for uncovering
vulnerabilities in large language models (LLMs). However, most existing methods
focus on isolated safety flaws, limiting their ability to adapt to dynamic
defenses and uncover complex vulnerabilities efficiently. To address this
challenge, we propose Auto-RT, a reinforcement learning framework that
automatically explores and optimizes complex attack strategies to effectively
uncover security vulnerabilities through malicious queries. Specifically, we
introduce two key mechanisms to reduce exploration complexity and improve
strategy optimization: 1) Early-terminated Exploration, which accelerate
exploration by focusing on high-potential attack strategies; and 2) Progressive
Reward Tracking algorithm with intermediate downgrade models, which dynamically
refine the search trajectory toward successful vulnerability exploitation.
Extensive experiments across diverse LLMs demonstrate that, by significantly
improving exploration efficiency and automatically optimizing attack
strategies, Auto-RT detects a boarder range of vulnerabilities, achieving a
faster detection speed and 16.63\% higher success rates compared to existing
methods.Summary
AI-Generated Summary