La ricerca approfondita porta a danni più profondi
Deep Research Brings Deeper Harm
October 13, 2025
Autori: Shuo Chen, Zonggen Li, Zhen Han, Bailan He, Tong Liu, Haokun Chen, Georg Groh, Philip Torr, Volker Tresp, Jindong Gu
cs.AI
Abstract
Gli agenti di Deep Research (DR) basati su Large Language Models (LLM) possono eseguire ricerche complesse e multi-step scomponendo i compiti, recuperando informazioni online e sintetizzando report dettagliati. Tuttavia, l'uso improprio degli LLM con tali capacità potenti può portare a rischi ancora maggiori. Questo è particolarmente preoccupante in domini ad alto rischio e ad alta intensità di conoscenza come la biosicurezza, dove i DR possono generare un report professionale contenente conoscenze proibite dettagliate. Purtroppo, abbiamo riscontrato tali rischi nella pratica: semplicemente inviando una query dannosa, che un LLM autonomo rifiuta direttamente, può elicitare un report dettagliato e pericoloso dagli agenti DR. Ciò evidenzia i rischi elevati e sottolinea la necessità di un'analisi di sicurezza più approfondita. Tuttavia, i metodi di jailbreak progettati per gli LLM non riescono a esporre tali rischi unici, poiché non prendono di mira la capacità di ricerca degli agenti DR. Per colmare questa lacuna, proponiamo due nuove strategie di jailbreak: Plan Injection, che inietta sotto-obiettivi maliziosi nel piano dell'agente; e Intent Hijack, che riformula query dannose come domande di ricerca accademica. Abbiamo condotto esperimenti estesi su diversi LLM e vari benchmark di sicurezza, inclusi prompt proibiti generali e di biosicurezza. Questi esperimenti rivelano 3 risultati chiave: (1) L'allineamento degli LLM spesso fallisce negli agenti DR, dove prompt dannosi formulati in termini accademici possono dirottare l'intento dell'agente; (2) La pianificazione e l'esecuzione multi-step indeboliscono l'allineamento, rivelando vulnerabilità sistemiche che le salvaguardie a livello di prompt non possono affrontare; (3) Gli agenti DR non solo bypassano i rifiuti ma producono anche contenuti più coerenti, professionali e pericolosi rispetto agli LLM autonomi. Questi risultati dimostrano un disallineamento fondamentale negli agenti DR e richiedono tecniche di allineamento migliori specifiche per gli agenti DR. Codice e dataset sono disponibili su https://chenxshuo.github.io/deeper-harm.
English
Deep Research (DR) agents built on Large Language Models (LLMs) can perform
complex, multi-step research by decomposing tasks, retrieving online
information, and synthesizing detailed reports. However, the misuse of LLMs
with such powerful capabilities can lead to even greater risks. This is
especially concerning in high-stakes and knowledge-intensive domains such as
biosecurity, where DR can generate a professional report containing detailed
forbidden knowledge. Unfortunately, we have found such risks in practice:
simply submitting a harmful query, which a standalone LLM directly rejects, can
elicit a detailed and dangerous report from DR agents. This highlights the
elevated risks and underscores the need for a deeper safety analysis. Yet,
jailbreak methods designed for LLMs fall short in exposing such unique risks,
as they do not target the research ability of DR agents. To address this gap,
we propose two novel jailbreak strategies: Plan Injection, which injects
malicious sub-goals into the agent's plan; and Intent Hijack, which reframes
harmful queries as academic research questions. We conducted extensive
experiments across different LLMs and various safety benchmarks, including
general and biosecurity forbidden prompts. These experiments reveal 3 key
findings: (1) Alignment of the LLMs often fail in DR agents, where harmful
prompts framed in academic terms can hijack agent intent; (2) Multi-step
planning and execution weaken the alignment, revealing systemic vulnerabilities
that prompt-level safeguards cannot address; (3) DR agents not only bypass
refusals but also produce more coherent, professional, and dangerous content,
compared with standalone LLMs. These results demonstrate a fundamental
misalignment in DR agents and call for better alignment techniques tailored to
DR agents. Code and datasets are available at
https://chenxshuo.github.io/deeper-harm.