ChatPaper.aiChatPaper

Agentisches Verstärkungslernen für die Suche ist unsicher

Agentic Reinforcement Learning for Search is Unsafe

October 20, 2025
papers.authors: Yushi Yang, Shreyansh Padarha, Andrew Lee, Adam Mahdi
cs.AI

papers.abstract

Agentisches Reinforcement Learning (RL) trainiert große Sprachmodelle dazu, Werkzeuge während des Denkprozesses autonom aufzurufen, wobei die Suche die häufigste Anwendung darstellt. Diese Modelle zeichnen sich bei mehrstufigen Denkaufgaben aus, doch ihre Sicherheitseigenschaften sind nicht gut verstanden. In dieser Studie zeigen wir, dass RL-trainierte Suchmodelle die Verweigerung aus dem Instruction Tuning erben und oft schädliche Anfragen abwehren, indem sie sie in sichere Abfragen umwandeln. Diese Sicherheit ist jedoch fragil. Zwei einfache Angriffe – einer, der das Modell zwingt, die Antwort mit einer Suche zu beginnen (Suchangriff), und ein anderer, der Modelle dazu anregt, wiederholt zu suchen (Mehrfachsuchangriff) – lösen Kaskaden von schädlichen Suchen und Antworten aus. Über zwei Modellfamilien (Qwen, Llama) mit sowohl lokaler als auch Web-Suche hinweg senken diese Angriffe die Verweigerungsraten um bis zu 60,0 %, die Sicherheit der Antworten um 82,5 % und die Sicherheit der Suchanfragen um 82,4 %. Die Angriffe gelingen, indem sie die Modelle dazu veranlassen, schädliche, anfragespiegelnde Suchanfragen zu generieren, bevor sie die geerbten Verweigerungstoken erzeugen können. Dies legt eine zentrale Schwäche des aktuellen RL-Trainings offen: Es belohnt die fortgesetzte Generierung effektiver Abfragen, ohne deren Schädlichkeit zu berücksichtigen. Infolgedessen weisen RL-Suchmodelle Schwachstellen auf, die Benutzer leicht ausnutzen können, was die dringende Entwicklung sicherheitsbewusster agentischer RL-Pipelines zur Optimierung sicherer Suchen erforderlich macht.
English
Agentic reinforcement learning (RL) trains large language models to autonomously call tools during reasoning, with search as the most common application. These models excel at multi-step reasoning tasks, but their safety properties are not well understood. In this study, we show that RL-trained search models inherit refusal from instruction tuning and often deflect harmful requests by turning them into safe queries. However, this safety is fragile. Two simple attacks, one that forces the model to begin response with search (Search attack), another that encourages models to repeatedly search (Multi-search attack), trigger cascades of harmful searches and answers. Across two model families (Qwen, Llama) with both local and web search, these attacks lower refusal rates by up to 60.0%, answer safety by 82.5%, and search-query safety by 82.4%. The attacks succeed by triggering models to generate harmful, request-mirroring search queries before they can generate the inherited refusal tokens. This exposes a core weakness of current RL training: it rewards continued generation of effective queries without accounting for their harmfulness. As a result, RL search models have vulnerabilities that users can easily exploit, making it urgent to develop safety-aware agentic RL pipelines optimising for safe search.
PDF42October 21, 2025