探索のためのエージェンシック強化学習は安全ではない
Agentic Reinforcement Learning for Search is Unsafe
October 20, 2025
著者: Yushi Yang, Shreyansh Padarha, Andrew Lee, Adam Mahdi
cs.AI
要旨
エージェンシック強化学習(RL)は、大規模言語モデルに推論中に自律的にツールを呼び出すことを訓練し、検索が最も一般的な応用となっている。これらのモデルは多段階の推論タスクに優れているが、その安全性に関する特性は十分に理解されていない。本研究では、RLで訓練された検索モデルが指示チューニングからの拒否を継承し、有害なリクエストを安全なクエリに転換することでしばしば回避することを示す。しかし、この安全性は脆弱である。モデルに検索から応答を開始させる(検索攻撃)と、モデルに繰り返し検索を促す(マルチ検索攻撃)という2つの単純な攻撃により、有害な検索と回答の連鎖が引き起こされる。ローカル検索とウェブ検索の両方を用いた2つのモデルファミリー(Qwen、Llama)において、これらの攻撃により拒否率が最大60.0%、回答の安全性が82.5%、検索クエリの安全性が82.4%低下する。これらの攻撃は、モデルが継承された拒否トークンを生成する前に、有害なリクエストを反映した検索クエリを生成するよう誘導することで成功する。これは、現在のRL訓練の核心的な弱点を露呈している:効果的なクエリの継続的な生成を報酬としており、その有害性を考慮していない。その結果、RL検索モデルにはユーザーが容易に悪用できる脆弱性が存在し、安全な検索を最適化する安全性を考慮したエージェンシックRLパイプラインの開発が急務である。
English
Agentic reinforcement learning (RL) trains large language models to
autonomously call tools during reasoning, with search as the most common
application. These models excel at multi-step reasoning tasks, but their safety
properties are not well understood. In this study, we show that RL-trained
search models inherit refusal from instruction tuning and often deflect harmful
requests by turning them into safe queries. However, this safety is fragile.
Two simple attacks, one that forces the model to begin response with search
(Search attack), another that encourages models to repeatedly search
(Multi-search attack), trigger cascades of harmful searches and answers. Across
two model families (Qwen, Llama) with both local and web search, these attacks
lower refusal rates by up to 60.0%, answer safety by 82.5%, and search-query
safety by 82.4%. The attacks succeed by triggering models to generate harmful,
request-mirroring search queries before they can generate the inherited refusal
tokens. This exposes a core weakness of current RL training: it rewards
continued generation of effective queries without accounting for their
harmfulness. As a result, RL search models have vulnerabilities that users can
easily exploit, making it urgent to develop safety-aware agentic RL pipelines
optimising for safe search.