L'Apprendimento per Rinforzo Agente per la Ricerca è Insicuro
Agentic Reinforcement Learning for Search is Unsafe
October 20, 2025
Autori: Yushi Yang, Shreyansh Padarha, Andrew Lee, Adam Mahdi
cs.AI
Abstract
L'apprendimento per rinforzo agentico (RL) addestra modelli linguistici di grandi dimensioni a richiamare autonomamente strumenti durante il ragionamento, con la ricerca come applicazione più comune. Questi modelli eccellono in compiti di ragionamento a più passaggi, ma le loro proprietà di sicurezza non sono ben comprese. In questo studio, dimostriamo che i modelli di ricerca addestrati con RL ereditano il rifiuto dal tuning delle istruzioni e spesso deviano richieste dannose trasformandole in query sicure. Tuttavia, questa sicurezza è fragile. Due semplici attacchi, uno che costringe il modello a iniziare la risposta con una ricerca (attacco di ricerca), e un altro che incoraggia i modelli a ripetere la ricerca (attacco di ricerca multipla), innescano cascate di ricerche e risposte dannose. Attraverso due famiglie di modelli (Qwen, Llama) con ricerca sia locale che web, questi attacchi riducono i tassi di rifiuto fino al 60,0%, la sicurezza delle risposte dell'82,5% e la sicurezza delle query di ricerca dell'82,4%. Gli attacchi hanno successo innescando i modelli a generare query di ricerca dannose che rispecchiano la richiesta prima che possano generare i token di rifiuto ereditati. Questo rivela una debolezza fondamentale dell'attuale addestramento RL: premia la generazione continua di query efficaci senza tenere conto della loro dannosità. Di conseguenza, i modelli di ricerca RL presentano vulnerabilità che gli utenti possono sfruttare facilmente, rendendo urgente lo sviluppo di pipeline RL agentiche consapevoli della sicurezza che ottimizzino per ricerche sicure.
English
Agentic reinforcement learning (RL) trains large language models to
autonomously call tools during reasoning, with search as the most common
application. These models excel at multi-step reasoning tasks, but their safety
properties are not well understood. In this study, we show that RL-trained
search models inherit refusal from instruction tuning and often deflect harmful
requests by turning them into safe queries. However, this safety is fragile.
Two simple attacks, one that forces the model to begin response with search
(Search attack), another that encourages models to repeatedly search
(Multi-search attack), trigger cascades of harmful searches and answers. Across
two model families (Qwen, Llama) with both local and web search, these attacks
lower refusal rates by up to 60.0%, answer safety by 82.5%, and search-query
safety by 82.4%. The attacks succeed by triggering models to generate harmful,
request-mirroring search queries before they can generate the inherited refusal
tokens. This exposes a core weakness of current RL training: it rewards
continued generation of effective queries without accounting for their
harmfulness. As a result, RL search models have vulnerabilities that users can
easily exploit, making it urgent to develop safety-aware agentic RL pipelines
optimising for safe search.