Auto-RT: Автоматическое исследование стратегий для взлома для красной команды больших языковых моделей

Аннотация

Автоматизированное красное тестирование стало ключевым подходом для выявления уязвимостей в больших языковых моделях (LLM). Однако большинство существующих методов сосредоточены на изолированных проблемах безопасности, что ограничивает их способность адаптироваться к динамическим защитам и эффективно выявлять сложные уязвимости. Для решения этой проблемы мы предлагаем Auto-RT, фреймворк обучения с подкреплением, который автоматически исследует и оптимизирует сложные стратегии атак для эффективного выявления уязвимостей безопасности через злонамеренные запросы. В частности, мы вводим два ключевых механизма для уменьшения сложности исследования и улучшения оптимизации стратегии: 1) Раннее прерывание исследования, ускоряющее исследование за счет фокусировки на стратегиях атак с высоким потенциалом; и 2) Алгоритм прогрессивного отслеживания вознаграждения с промежуточными моделями понижения, который динамически уточняет траекторию поиска к успешной эксплуатации уязвимости. Обширные эксперименты с различными LLM показывают, что благодаря значительному улучшению эффективности исследования и автоматической оптимизации стратегий атак, Auto-RT обнаруживает более широкий спектр уязвимостей, достигая более быстрой скорости обнаружения и на 16,63\% более высоких показателей успешности по сравнению с существующими методами.

English

Automated red-teaming has become a crucial approach for uncovering vulnerabilities in large language models (LLMs). However, most existing methods focus on isolated safety flaws, limiting their ability to adapt to dynamic defenses and uncover complex vulnerabilities efficiently. To address this challenge, we propose Auto-RT, a reinforcement learning framework that automatically explores and optimizes complex attack strategies to effectively uncover security vulnerabilities through malicious queries. Specifically, we introduce two key mechanisms to reduce exploration complexity and improve strategy optimization: 1) Early-terminated Exploration, which accelerate exploration by focusing on high-potential attack strategies; and 2) Progressive Reward Tracking algorithm with intermediate downgrade models, which dynamically refine the search trajectory toward successful vulnerability exploitation. Extensive experiments across diverse LLMs demonstrate that, by significantly improving exploration efficiency and automatically optimizing attack strategies, Auto-RT detects a boarder range of vulnerabilities, achieving a faster detection speed and 16.63\% higher success rates compared to existing methods.