Auto-RT: Automatische Strategieerkundung für das Jailbreaken großer Sprachmodelle im Red-Teaming

Zusammenfassung

Die automatisierte Red-Teaming ist zu einem entscheidenden Ansatz geworden, um Schwachstellen in großen Sprachmodellen (LLMs) aufzudecken. Die meisten bestehenden Methoden konzentrieren sich jedoch auf isolierte Sicherheitsmängel, was ihre Fähigkeit einschränkt, sich an dynamische Verteidigungen anzupassen und komplexe Schwachstellen effizient aufzudecken. Um diese Herausforderung anzugehen, schlagen wir Auto-RT vor, ein Framework des reinforcement learning, das automatisch komplexe Angriffsstrategien erforscht und optimiert, um Sicherheitslücken effektiv durch bösartige Abfragen aufzudecken. Insbesondere führen wir zwei Schlüsselmechanismen ein, um die Komplexität der Exploration zu reduzieren und die Strategieoptimierung zu verbessern: 1) Frühzeitig beendete Exploration, die die Exploration beschleunigt, indem sie sich auf vielversprechende Angriffsstrategien konzentriert; und 2) Das Progressive Reward Tracking-Algorithmus mit Zwischenabstufungsmodellen, die die Suche dynamisch verfeinern, um eine erfolgreiche Ausnutzung von Sicherheitslücken zu erreichen. Umfangreiche Experimente über verschiedene LLMs hinweg zeigen, dass Auto-RT durch signifikante Verbesserungen der Explorations-Effizienz und automatische Optimierung von Angriffsstrategien einen breiteren Bereich von Schwachstellen erkennt, eine schnellere Entdeckungsgeschwindigkeit erreicht und eine Erfolgsrate von 16,63\% höher im Vergleich zu bestehenden Methoden erzielt.

English

Automated red-teaming has become a crucial approach for uncovering vulnerabilities in large language models (LLMs). However, most existing methods focus on isolated safety flaws, limiting their ability to adapt to dynamic defenses and uncover complex vulnerabilities efficiently. To address this challenge, we propose Auto-RT, a reinforcement learning framework that automatically explores and optimizes complex attack strategies to effectively uncover security vulnerabilities through malicious queries. Specifically, we introduce two key mechanisms to reduce exploration complexity and improve strategy optimization: 1) Early-terminated Exploration, which accelerate exploration by focusing on high-potential attack strategies; and 2) Progressive Reward Tracking algorithm with intermediate downgrade models, which dynamically refine the search trajectory toward successful vulnerability exploitation. Extensive experiments across diverse LLMs demonstrate that, by significantly improving exploration efficiency and automatically optimizing attack strategies, Auto-RT detects a boarder range of vulnerabilities, achieving a faster detection speed and 16.63\% higher success rates compared to existing methods.