레드팀 공격을 위한 트리 기반 대화 강화 정책 최적화
Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks
October 2, 2025
저자: Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth
cs.AI
초록
최근 AI 안전성 분야에서 급속한 발전이 있었음에도 불구하고, 현재의 대규모 언어 모델은 다중 턴 상호작용 환경에서 적대적 공격에 취약한 상태로 남아 있습니다. 공격자들은 대화 턴에 걸쳐 전략적으로 프롬프트를 조정하며 더욱 심각하고 현실적인 도전을 제기합니다. 기존의 안전성 취약점 탐지 접근법은 인간 전문가가 수동으로 수행하는 레드 팀링에 의존하거나, 사전 정의된 템플릿과 인간이 선별한 공격 데이터를 사용한 자동화된 방법을 활용하며, 대부분 단일 턴 공격에 초점을 맞추고 있습니다. 그러나 이러한 방법들은 가능한 다중 턴 공격의 광범위한 공간을 탐색하지 못했으며, 복잡한 대화 역학과 전략적 대화 계획에서 발생하는 새로운 공격 궤적을 고려하지 못했습니다. 이러한 간극은 최근 연구 결과에 따르면 LLM이 단일 턴 공격에 비해 다중 턴 공격에 훨씬 더 취약하다는 점에서 특히 중요합니다. 우리는 DialTree-RPO를 제안합니다. 이는 대화를 순차적 의사결정 문제로 취급하여 수동으로 선별된 데이터 없이도 체계적인 탐색을 가능하게 하는 트리 탐색과 통합된 온-폴리시 강화 학습 프레임워크로, 다양한 다중 턴 공격 전략을 자율적으로 발견합니다. 광범위한 실험을 통해 우리의 접근법은 이전의 최첨단 접근법 대비 10개의 대상 모델에서 25.9% 이상 높은 ASR(Attack Success Rate)을 달성할 뿐만 아니라, 다중 턴에 걸쳐 공격 성공을 극대화하는 최적의 대화 정책을 학습함으로써 새로운 공격 전략을 효과적으로 발견합니다.
English
Despite recent rapid progress in AI safety, current large language models
remain vulnerable to adversarial attacks in multi-turn interaction settings,
where attackers strategically adapt their prompts across conversation turns and
pose a more critical yet realistic challenge. Existing approaches that discover
safety vulnerabilities either rely on manual red-teaming with human experts or
employ automated methods using pre-defined templates and human-curated attack
data, with most focusing on single-turn attacks. However, these methods did not
explore the vast space of possible multi-turn attacks, failing to consider
novel attack trajectories that emerge from complex dialogue dynamics and
strategic conversation planning. This gap is particularly critical given recent
findings that LLMs exhibit significantly higher vulnerability to multi-turn
attacks compared to single-turn attacks. We propose DialTree-RPO, an on-policy
reinforcement learning framework integrated with tree search that autonomously
discovers diverse multi-turn attack strategies by treating the dialogue as a
sequential decision-making problem, enabling systematic exploration without
manually curated data. Through extensive experiments, our approach not only
achieves more than 25.9% higher ASR across 10 target models compared to
previous state-of-the-art approaches, but also effectively uncovers new attack
strategies by learning optimal dialogue policies that maximize attack success
across multiple turns.