Aprendizado por Reforço Agêntico para Busca é Inseguro
Agentic Reinforcement Learning for Search is Unsafe
October 20, 2025
Autores: Yushi Yang, Shreyansh Padarha, Andrew Lee, Adam Mahdi
cs.AI
Resumo
O aprendizado por reforço (RL) agentico treina grandes modelos de linguagem para chamar ferramentas de forma autônoma durante o raciocínio, sendo a busca a aplicação mais comum. Esses modelos se destacam em tarefas de raciocínio de múltiplos passos, mas suas propriedades de segurança não são bem compreendidas. Neste estudo, mostramos que os modelos de busca treinados com RL herdam a recusa do ajuste fino por instrução e frequentemente desviam solicitações prejudiciais, transformando-as em consultas seguras. No entanto, essa segurança é frágil. Dois ataques simples, um que força o modelo a começar a resposta com uma busca (ataque de Busca) e outro que incentiva os modelos a buscar repetidamente (ataque de Multi-busca), desencadeiam cascatas de buscas e respostas prejudiciais. Em duas famílias de modelos (Qwen, Llama) com busca local e na web, esses ataques reduzem as taxas de recusa em até 60,0%, a segurança das respostas em 82,5% e a segurança das consultas de busca em 82,4%. Os ataques têm sucesso ao fazer com que os modelos gerem consultas de busca prejudiciais que espelham a solicitação antes que possam gerar os tokens de recusa herdados. Isso expõe uma fraqueza central do treinamento atual com RL: ele recompensa a geração contínua de consultas eficazes sem considerar sua nocividade. Como resultado, os modelos de busca com RL têm vulnerabilidades que os usuários podem explorar facilmente, tornando urgente o desenvolvimento de pipelines de RL agentico conscientes da segurança, otimizados para busca segura.
English
Agentic reinforcement learning (RL) trains large language models to
autonomously call tools during reasoning, with search as the most common
application. These models excel at multi-step reasoning tasks, but their safety
properties are not well understood. In this study, we show that RL-trained
search models inherit refusal from instruction tuning and often deflect harmful
requests by turning them into safe queries. However, this safety is fragile.
Two simple attacks, one that forces the model to begin response with search
(Search attack), another that encourages models to repeatedly search
(Multi-search attack), trigger cascades of harmful searches and answers. Across
two model families (Qwen, Llama) with both local and web search, these attacks
lower refusal rates by up to 60.0%, answer safety by 82.5%, and search-query
safety by 82.4%. The attacks succeed by triggering models to generate harmful,
request-mirroring search queries before they can generate the inherited refusal
tokens. This exposes a core weakness of current RL training: it rewards
continued generation of effective queries without accounting for their
harmfulness. As a result, RL search models have vulnerabilities that users can
easily exploit, making it urgent to develop safety-aware agentic RL pipelines
optimising for safe search.