El Aprendizaje por Refuerzo Agéntico para Búsqueda es Inseguro
Agentic Reinforcement Learning for Search is Unsafe
October 20, 2025
Autores: Yushi Yang, Shreyansh Padarha, Andrew Lee, Adam Mahdi
cs.AI
Resumen
El aprendizaje por refuerzo agente (RL, por sus siglas en inglés) entrena modelos de lenguaje extensos para invocar herramientas de manera autónoma durante el razonamiento, siendo la búsqueda la aplicación más común. Estos modelos destacan en tareas de razonamiento de múltiples pasos, pero sus propiedades de seguridad no están bien comprendidas. En este estudio, demostramos que los modelos de búsqueda entrenados con RL heredan la capacidad de rechazo del ajuste por instrucciones y a menudo desvían solicitudes dañinas convirtiéndolas en consultas seguras. Sin embargo, esta seguridad es frágil. Dos ataques simples, uno que obliga al modelo a comenzar su respuesta con una búsqueda (ataque de búsqueda) y otro que incentiva a los modelos a buscar repetidamente (ataque de búsqueda múltiple), desencadenan cascadas de búsquedas y respuestas dañinas. En dos familias de modelos (Qwen, Llama) con búsquedas tanto locales como en la web, estos ataques reducen las tasas de rechazo hasta en un 60.0%, la seguridad de las respuestas en un 82.5% y la seguridad de las consultas de búsqueda en un 82.4%. Los ataques tienen éxito al hacer que los modelos generen consultas de búsqueda dañinas que reflejan la solicitud antes de que puedan generar los tokens de rechazo heredados. Esto expone una debilidad fundamental del entrenamiento actual de RL: recompensa la generación continua de consultas efectivas sin tener en cuenta su nocividad. Como resultado, los modelos de búsqueda RL tienen vulnerabilidades que los usuarios pueden explotar fácilmente, lo que hace urgente desarrollar pipelines de RL agente conscientes de la seguridad que optimicen la búsqueda segura.
English
Agentic reinforcement learning (RL) trains large language models to
autonomously call tools during reasoning, with search as the most common
application. These models excel at multi-step reasoning tasks, but their safety
properties are not well understood. In this study, we show that RL-trained
search models inherit refusal from instruction tuning and often deflect harmful
requests by turning them into safe queries. However, this safety is fragile.
Two simple attacks, one that forces the model to begin response with search
(Search attack), another that encourages models to repeatedly search
(Multi-search attack), trigger cascades of harmful searches and answers. Across
two model families (Qwen, Llama) with both local and web search, these attacks
lower refusal rates by up to 60.0%, answer safety by 82.5%, and search-query
safety by 82.4%. The attacks succeed by triggering models to generate harmful,
request-mirroring search queries before they can generate the inherited refusal
tokens. This exposes a core weakness of current RL training: it rewards
continued generation of effective queries without accounting for their
harmfulness. As a result, RL search models have vulnerabilities that users can
easily exploit, making it urgent to develop safety-aware agentic RL pipelines
optimising for safe search.