La investigación profunda conlleva un daño más profundo.
Deep Research Brings Deeper Harm
October 13, 2025
Autores: Shuo Chen, Zonggen Li, Zhen Han, Bailan He, Tong Liu, Haokun Chen, Georg Groh, Philip Torr, Volker Tresp, Jindong Gu
cs.AI
Resumen
Los agentes de Investigación Profunda (DR, por sus siglas en inglés) basados en Modelos de Lenguaje de Gran Escala (LLMs) pueden realizar investigaciones complejas y de múltiples pasos al descomponer tareas, recuperar información en línea y sintetizar informes detallados. Sin embargo, el mal uso de los LLMs con capacidades tan poderosas puede generar riesgos aún mayores. Esto es especialmente preocupante en dominios de alto impacto e intensivos en conocimiento, como la bioseguridad, donde los DR pueden generar un informe profesional que contenga conocimiento prohibido detallado. Lamentablemente, hemos encontrado tales riesgos en la práctica: simplemente enviar una consulta dañina, que un LLM independiente rechaza directamente, puede provocar un informe detallado y peligroso de los agentes DR. Esto resalta los riesgos elevados y subraya la necesidad de un análisis de seguridad más profundo. Sin embargo, los métodos de "jailbreak" diseñados para LLMs no logran exponer estos riesgos únicos, ya que no se dirigen a la capacidad de investigación de los agentes DR. Para abordar esta brecha, proponemos dos estrategias novedosas de "jailbreak": Inyección de Plan, que introduce subobjetivos maliciosos en el plan del agente; y Secuestro de Intención, que reformula consultas dañinas como preguntas de investigación académica. Realizamos extensos experimentos en diferentes LLMs y varios puntos de referencia de seguridad, incluyendo indicaciones prohibidas generales y de bioseguridad. Estos experimentos revelan 3 hallazgos clave: (1) La alineación de los LLMs a menudo falla en los agentes DR, donde indicaciones dañinas enmarcadas en términos académicos pueden secuestrar la intención del agente; (2) La planificación y ejecución de múltiples pasos debilita la alineación, revelando vulnerabilidades sistémicas que las salvaguardas a nivel de indicación no pueden abordar; (3) Los agentes DR no solo evitan rechazos, sino que también producen contenido más coherente, profesional y peligroso, en comparación con los LLMs independientes. Estos resultados demuestran una desalineación fundamental en los agentes DR y exigen mejores técnicas de alineación adaptadas a los agentes DR. El código y los conjuntos de datos están disponibles en https://chenxshuo.github.io/deeper-harm.
English
Deep Research (DR) agents built on Large Language Models (LLMs) can perform
complex, multi-step research by decomposing tasks, retrieving online
information, and synthesizing detailed reports. However, the misuse of LLMs
with such powerful capabilities can lead to even greater risks. This is
especially concerning in high-stakes and knowledge-intensive domains such as
biosecurity, where DR can generate a professional report containing detailed
forbidden knowledge. Unfortunately, we have found such risks in practice:
simply submitting a harmful query, which a standalone LLM directly rejects, can
elicit a detailed and dangerous report from DR agents. This highlights the
elevated risks and underscores the need for a deeper safety analysis. Yet,
jailbreak methods designed for LLMs fall short in exposing such unique risks,
as they do not target the research ability of DR agents. To address this gap,
we propose two novel jailbreak strategies: Plan Injection, which injects
malicious sub-goals into the agent's plan; and Intent Hijack, which reframes
harmful queries as academic research questions. We conducted extensive
experiments across different LLMs and various safety benchmarks, including
general and biosecurity forbidden prompts. These experiments reveal 3 key
findings: (1) Alignment of the LLMs often fail in DR agents, where harmful
prompts framed in academic terms can hijack agent intent; (2) Multi-step
planning and execution weaken the alignment, revealing systemic vulnerabilities
that prompt-level safeguards cannot address; (3) DR agents not only bypass
refusals but also produce more coherent, professional, and dangerous content,
compared with standalone LLMs. These results demonstrate a fundamental
misalignment in DR agents and call for better alignment techniques tailored to
DR agents. Code and datasets are available at
https://chenxshuo.github.io/deeper-harm.