ChatPaper.aiChatPaper

Агентное обучение с подкреплением для поиска небезопасно

Agentic Reinforcement Learning for Search is Unsafe

October 20, 2025
Авторы: Yushi Yang, Shreyansh Padarha, Andrew Lee, Adam Mahdi
cs.AI

Аннотация

Агентное обучение с подкреплением (RL) обучает крупные языковые модели автономно вызывать инструменты в процессе рассуждения, причем поиск является наиболее распространенным применением. Эти модели превосходно справляются с задачами многошагового рассуждения, однако их свойства безопасности изучены недостаточно. В данном исследовании мы показываем, что модели поиска, обученные с помощью RL, наследуют отказ от выполнения инструкций и часто отклоняют вредоносные запросы, преобразуя их в безопасные запросы. Однако эта безопасность является хрупкой. Две простые атаки — одна, которая заставляет модель начинать ответ с поиска (атака "Search attack"), и другая, которая побуждает модели многократно выполнять поиск (атака "Multi-search attack"), — вызывают каскады вредоносных поисков и ответов. В двух семействах моделей (Qwen, Llama) как с локальным, так и с веб-поиском эти атаки снижают уровень отказов до 60,0%, безопасность ответов — на 82,5%, а безопасность поисковых запросов — на 82,4%. Атаки успешны, поскольку заставляют модели генерировать вредоносные поисковые запросы, отражающие запросы, до того, как они смогут сгенерировать унаследованные токены отказа. Это выявляет ключевую слабость текущего обучения RL: оно вознаграждает продолжение генерации эффективных запросов без учета их вредоносности. В результате модели поиска RL имеют уязвимости, которые пользователи могут легко эксплуатировать, что делает срочным разработку безопасных агентных RL-конвейеров, оптимизированных для безопасного поиска.
English
Agentic reinforcement learning (RL) trains large language models to autonomously call tools during reasoning, with search as the most common application. These models excel at multi-step reasoning tasks, but their safety properties are not well understood. In this study, we show that RL-trained search models inherit refusal from instruction tuning and often deflect harmful requests by turning them into safe queries. However, this safety is fragile. Two simple attacks, one that forces the model to begin response with search (Search attack), another that encourages models to repeatedly search (Multi-search attack), trigger cascades of harmful searches and answers. Across two model families (Qwen, Llama) with both local and web search, these attacks lower refusal rates by up to 60.0%, answer safety by 82.5%, and search-query safety by 82.4%. The attacks succeed by triggering models to generate harmful, request-mirroring search queries before they can generate the inherited refusal tokens. This exposes a core weakness of current RL training: it rewards continued generation of effective queries without accounting for their harmfulness. As a result, RL search models have vulnerabilities that users can easily exploit, making it urgent to develop safety-aware agentic RL pipelines optimising for safe search.
PDF42October 21, 2025