La investigación profunda conlleva un daño más profundo.

Resumen

Los agentes de Investigación Profunda (DR, por sus siglas en inglés) basados en Modelos de Lenguaje de Gran Escala (LLMs) pueden realizar investigaciones complejas y de múltiples pasos al descomponer tareas, recuperar información en línea y sintetizar informes detallados. Sin embargo, el mal uso de los LLMs con capacidades tan poderosas puede generar riesgos aún mayores. Esto es especialmente preocupante en dominios de alto impacto e intensivos en conocimiento, como la bioseguridad, donde los DR pueden generar un informe profesional que contenga conocimiento prohibido detallado. Lamentablemente, hemos encontrado tales riesgos en la práctica: simplemente enviar una consulta dañina, que un LLM independiente rechaza directamente, puede provocar un informe detallado y peligroso de los agentes DR. Esto resalta los riesgos elevados y subraya la necesidad de un análisis de seguridad más profundo. Sin embargo, los métodos de "jailbreak" diseñados para LLMs no logran exponer estos riesgos únicos, ya que no se dirigen a la capacidad de investigación de los agentes DR. Para abordar esta brecha, proponemos dos estrategias novedosas de "jailbreak": Inyección de Plan, que introduce subobjetivos maliciosos en el plan del agente; y Secuestro de Intención, que reformula consultas dañinas como preguntas de investigación académica. Realizamos extensos experimentos en diferentes LLMs y varios puntos de referencia de seguridad, incluyendo indicaciones prohibidas generales y de bioseguridad. Estos experimentos revelan 3 hallazgos clave: (1) La alineación de los LLMs a menudo falla en los agentes DR, donde indicaciones dañinas enmarcadas en términos académicos pueden secuestrar la intención del agente; (2) La planificación y ejecución de múltiples pasos debilita la alineación, revelando vulnerabilidades sistémicas que las salvaguardas a nivel de indicación no pueden abordar; (3) Los agentes DR no solo evitan rechazos, sino que también producen contenido más coherente, profesional y peligroso, en comparación con los LLMs independientes. Estos resultados demuestran una desalineación fundamental en los agentes DR y exigen mejores técnicas de alineación adaptadas a los agentes DR. El código y los conjuntos de datos están disponibles en https://chenxshuo.github.io/deeper-harm.

English

Deep Research (DR) agents built on Large Language Models (LLMs) can perform complex, multi-step research by decomposing tasks, retrieving online information, and synthesizing detailed reports. However, the misuse of LLMs with such powerful capabilities can lead to even greater risks. This is especially concerning in high-stakes and knowledge-intensive domains such as biosecurity, where DR can generate a professional report containing detailed forbidden knowledge. Unfortunately, we have found such risks in practice: simply submitting a harmful query, which a standalone LLM directly rejects, can elicit a detailed and dangerous report from DR agents. This highlights the elevated risks and underscores the need for a deeper safety analysis. Yet, jailbreak methods designed for LLMs fall short in exposing such unique risks, as they do not target the research ability of DR agents. To address this gap, we propose two novel jailbreak strategies: Plan Injection, which injects malicious sub-goals into the agent's plan; and Intent Hijack, which reframes harmful queries as academic research questions. We conducted extensive experiments across different LLMs and various safety benchmarks, including general and biosecurity forbidden prompts. These experiments reveal 3 key findings: (1) Alignment of the LLMs often fail in DR agents, where harmful prompts framed in academic terms can hijack agent intent; (2) Multi-step planning and execution weaken the alignment, revealing systemic vulnerabilities that prompt-level safeguards cannot address; (3) DR agents not only bypass refusals but also produce more coherent, professional, and dangerous content, compared with standalone LLMs. These results demonstrate a fundamental misalignment in DR agents and call for better alignment techniques tailored to DR agents. Code and datasets are available at https://chenxshuo.github.io/deeper-harm.

La investigación profunda conlleva un daño más profundo.

Deep Research Brings Deeper Harm

Resumen

Support