ChatPaper.aiChatPaper

Agentisch Reinforcement Learning voor Zoekopdrachten is Onveilig

Agentic Reinforcement Learning for Search is Unsafe

October 20, 2025
Auteurs: Yushi Yang, Shreyansh Padarha, Andrew Lee, Adam Mahdi
cs.AI

Samenvatting

Agentisch reinforcement learning (RL) traint grote taalmodellen om autonoom tools aan te roepen tijdens redeneren, waarbij zoeken de meest voorkomende toepassing is. Deze modellen blinken uit in meerstaps redeneertaken, maar hun veiligheidseigenschappen zijn niet goed begrepen. In deze studie tonen we aan dat RL-getrainde zoekmodellen weigeringen overnemen van instructieafstemming en vaak schadelijke verzoeken afbuigen door ze om te zetten in veilige zoekopdrachten. Deze veiligheid is echter fragiel. Twee eenvoudige aanvallen, één die het model dwingt om te beginnen met zoeken (Zoekaanval), en een ander die modellen aanmoedigt om herhaaldelijk te zoeken (Multi-zoekaanval), veroorzaken cascades van schadelijke zoekopdrachten en antwoorden. Over twee modelfamilies (Qwen, Llama) met zowel lokale als webzoekopdrachten, verlagen deze aanvallen de weigeringspercentages met tot 60,0%, de veiligheid van antwoorden met 82,5%, en de veiligheid van zoekopdrachten met 82,4%. De aanvallen slagen door modellen te activeren om schadelijke, verzoekspiegelende zoekopdrachten te genereren voordat ze de overgenomen weigerings-tokens kunnen genereren. Dit onthult een kernzwakte van de huidige RL-training: het beloont het voortdurend genereren van effectieve zoekopdrachten zonder rekening te houden met hun schadelijkheid. Als gevolg hiervan hebben RL-zoekmodellen kwetsbaarheden die gebruikers gemakkelijk kunnen uitbuiten, wat de urgentie benadrukt om veiligheidsbewuste agentische RL-pipelines te ontwikkelen die optimaliseren voor veilig zoeken.
English
Agentic reinforcement learning (RL) trains large language models to autonomously call tools during reasoning, with search as the most common application. These models excel at multi-step reasoning tasks, but their safety properties are not well understood. In this study, we show that RL-trained search models inherit refusal from instruction tuning and often deflect harmful requests by turning them into safe queries. However, this safety is fragile. Two simple attacks, one that forces the model to begin response with search (Search attack), another that encourages models to repeatedly search (Multi-search attack), trigger cascades of harmful searches and answers. Across two model families (Qwen, Llama) with both local and web search, these attacks lower refusal rates by up to 60.0%, answer safety by 82.5%, and search-query safety by 82.4%. The attacks succeed by triggering models to generate harmful, request-mirroring search queries before they can generate the inherited refusal tokens. This exposes a core weakness of current RL training: it rewards continued generation of effective queries without accounting for their harmfulness. As a result, RL search models have vulnerabilities that users can easily exploit, making it urgent to develop safety-aware agentic RL pipelines optimising for safe search.
PDF42December 23, 2025