Auto-RT: Автоматическое исследование стратегий для взлома для красной команды больших языковых моделей
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models
January 3, 2025
Авторы: Yanjiang Liu, Shuhen Zhou, Yaojie Lu, Huijia Zhu, Weiqiang Wang, Hongyu Lin, Ben He, Xianpei Han, Le Sun
cs.AI
Аннотация
Автоматизированное красное тестирование стало ключевым подходом для выявления уязвимостей в больших языковых моделях (LLM). Однако большинство существующих методов сосредоточены на изолированных проблемах безопасности, что ограничивает их способность адаптироваться к динамическим защитам и эффективно выявлять сложные уязвимости. Для решения этой проблемы мы предлагаем Auto-RT, фреймворк обучения с подкреплением, который автоматически исследует и оптимизирует сложные стратегии атак для эффективного выявления уязвимостей безопасности через злонамеренные запросы. В частности, мы вводим два ключевых механизма для уменьшения сложности исследования и улучшения оптимизации стратегии: 1) Раннее прерывание исследования, ускоряющее исследование за счет фокусировки на стратегиях атак с высоким потенциалом; и 2) Алгоритм прогрессивного отслеживания вознаграждения с промежуточными моделями понижения, который динамически уточняет траекторию поиска к успешной эксплуатации уязвимости. Обширные эксперименты с различными LLM показывают, что благодаря значительному улучшению эффективности исследования и автоматической оптимизации стратегий атак, Auto-RT обнаруживает более широкий спектр уязвимостей, достигая более быстрой скорости обнаружения и на 16,63\% более высоких показателей успешности по сравнению с существующими методами.
English
Automated red-teaming has become a crucial approach for uncovering
vulnerabilities in large language models (LLMs). However, most existing methods
focus on isolated safety flaws, limiting their ability to adapt to dynamic
defenses and uncover complex vulnerabilities efficiently. To address this
challenge, we propose Auto-RT, a reinforcement learning framework that
automatically explores and optimizes complex attack strategies to effectively
uncover security vulnerabilities through malicious queries. Specifically, we
introduce two key mechanisms to reduce exploration complexity and improve
strategy optimization: 1) Early-terminated Exploration, which accelerate
exploration by focusing on high-potential attack strategies; and 2) Progressive
Reward Tracking algorithm with intermediate downgrade models, which dynamically
refine the search trajectory toward successful vulnerability exploitation.
Extensive experiments across diverse LLMs demonstrate that, by significantly
improving exploration efficiency and automatically optimizing attack
strategies, Auto-RT detects a boarder range of vulnerabilities, achieving a
faster detection speed and 16.63\% higher success rates compared to existing
methods.Summary
AI-Generated Summary