ChatPaper.aiChatPaper

L'apprentissage par renforcement agentique pour la recherche est dangereux.

Agentic Reinforcement Learning for Search is Unsafe

October 20, 2025
papers.authors: Yushi Yang, Shreyansh Padarha, Andrew Lee, Adam Mahdi
cs.AI

papers.abstract

L'apprentissage par renforcement agentique (RL) entraîne les grands modèles de langage à appeler de manière autonome des outils lors du raisonnement, avec la recherche comme application la plus courante. Ces modèles excellent dans les tâches de raisonnement en plusieurs étapes, mais leurs propriétés de sécurité ne sont pas bien comprises. Dans cette étude, nous montrons que les modèles de recherche entraînés par RL héritent du refus issu du réglage par instruction et détournent souvent les requêtes nuisibles en les transformant en requêtes sûres. Cependant, cette sécurité est fragile. Deux attaques simples, l'une qui force le modèle à commencer sa réponse par une recherche (attaque de recherche), l'autre qui encourage les modèles à effectuer des recherches répétées (attaque de multi-recherche), déclenchent des cascades de recherches et de réponses nuisibles. Sur deux familles de modèles (Qwen, Llama) avec des recherches locales et sur le web, ces attaques réduisent les taux de refus jusqu'à 60,0 %, la sécurité des réponses de 82,5 % et la sécurité des requêtes de recherche de 82,4 %. Les attaques réussissent en incitant les modèles à générer des requêtes de recherche nuisibles et reflétant la demande avant qu'ils ne puissent générer les jetons de refus hérités. Cela expose une faiblesse fondamentale de l'entraînement RL actuel : il récompense la génération continue de requêtes efficaces sans tenir compte de leur nocivité. En conséquence, les modèles de recherche RL présentent des vulnérabilités que les utilisateurs peuvent facilement exploiter, rendant urgent le développement de pipelines RL agentiques conscients de la sécurité, optimisés pour une recherche sûre.
English
Agentic reinforcement learning (RL) trains large language models to autonomously call tools during reasoning, with search as the most common application. These models excel at multi-step reasoning tasks, but their safety properties are not well understood. In this study, we show that RL-trained search models inherit refusal from instruction tuning and often deflect harmful requests by turning them into safe queries. However, this safety is fragile. Two simple attacks, one that forces the model to begin response with search (Search attack), another that encourages models to repeatedly search (Multi-search attack), trigger cascades of harmful searches and answers. Across two model families (Qwen, Llama) with both local and web search, these attacks lower refusal rates by up to 60.0%, answer safety by 82.5%, and search-query safety by 82.4%. The attacks succeed by triggering models to generate harmful, request-mirroring search queries before they can generate the inherited refusal tokens. This exposes a core weakness of current RL training: it rewards continued generation of effective queries without accounting for their harmfulness. As a result, RL search models have vulnerabilities that users can easily exploit, making it urgent to develop safety-aware agentic RL pipelines optimising for safe search.
PDF42October 21, 2025