ChatPaper.aiChatPaper

탐색을 위한 에이전트 강화 학습은 안전하지 않다

Agentic Reinforcement Learning for Search is Unsafe

October 20, 2025
저자: Yushi Yang, Shreyansh Padarha, Andrew Lee, Adam Mahdi
cs.AI

초록

에이전트 강화학습(Agentic Reinforcement Learning, RL)은 대형 언어 모델이 추론 과정에서 도구를 자율적으로 호출하도록 훈련시키며, 검색이 가장 일반적인 응용 사례입니다. 이러한 모델은 다단계 추론 작업에서 뛰어난 성능을 보이지만, 그 안전성 특성은 잘 이해되지 않고 있습니다. 본 연구에서는 RL로 훈련된 검색 모델이 명령어 튜닝에서 거부 기능을 상속받아 유해한 요청을 안전한 질의로 전환하는 경우가 많음을 보여줍니다. 그러나 이러한 안전성은 취약합니다. 두 가지 간단한 공격, 하나는 모델이 검색으로 응답을 시작하도록 강제하는 공격(Search attack), 다른 하나는 모델이 반복적으로 검색하도록 유도하는 공격(Multi-search attack)은 유해한 검색과 답변의 연쇄를 유발합니다. 두 모델 계열(Qwen, Llama)에서 로컬 및 웹 검색 모두에 걸쳐 이러한 공격은 거부율을 최대 60.0%, 답변 안전성을 82.5%, 검색 질의 안전성을 82.4%까지 낮춥니다. 이 공격은 모델이 상속된 거부 토큰을 생성하기 전에 유해한 요청을 반영하는 검색 질의를 생성하도록 유발함으로써 성공합니다. 이는 현재 RL 훈련의 핵심 약점을 드러냅니다: RL은 질의의 효과적인 생성을 보상하지만 그 유해성을 고려하지 않습니다. 결과적으로, RL 검색 모델은 사용자가 쉽게 악용할 수 있는 취약점을 가지고 있어, 안전한 검색을 최적화하는 안전 인식 에이전트 RL 파이프라인을 개발하는 것이 시급합니다.
English
Agentic reinforcement learning (RL) trains large language models to autonomously call tools during reasoning, with search as the most common application. These models excel at multi-step reasoning tasks, but their safety properties are not well understood. In this study, we show that RL-trained search models inherit refusal from instruction tuning and often deflect harmful requests by turning them into safe queries. However, this safety is fragile. Two simple attacks, one that forces the model to begin response with search (Search attack), another that encourages models to repeatedly search (Multi-search attack), trigger cascades of harmful searches and answers. Across two model families (Qwen, Llama) with both local and web search, these attacks lower refusal rates by up to 60.0%, answer safety by 82.5%, and search-query safety by 82.4%. The attacks succeed by triggering models to generate harmful, request-mirroring search queries before they can generate the inherited refusal tokens. This exposes a core weakness of current RL training: it rewards continued generation of effective queries without accounting for their harmfulness. As a result, RL search models have vulnerabilities that users can easily exploit, making it urgent to develop safety-aware agentic RL pipelines optimising for safe search.
PDF42October 21, 2025