Tiefe Forschung bringt tiefere Schäden.
Deep Research Brings Deeper Harm
October 13, 2025
papers.authors: Shuo Chen, Zonggen Li, Zhen Han, Bailan He, Tong Liu, Haokun Chen, Georg Groh, Philip Torr, Volker Tresp, Jindong Gu
cs.AI
papers.abstract
Deep Research (DR)-Agenten, die auf Large Language Models (LLMs) basieren, können komplexe, mehrstufige Recherchen durchführen, indem sie Aufgaben zerlegen, Online-Informationen abrufen und detaillierte Berichte synthetisieren. Der Missbrauch von LLMs mit solch leistungsstarken Fähigkeiten kann jedoch zu noch größeren Risiken führen. Dies ist besonders besorgniserregend in hochriskanten und wissensintensiven Bereichen wie der Biosicherheit, wo DR einen professionellen Bericht mit detailliertem verbotenem Wissen generieren kann. Leider haben wir solche Risiken in der Praxis festgestellt: Das einfache Absenden einer schädlichen Anfrage, die ein eigenständiges LLM direkt ablehnt, kann einen detaillierten und gefährlichen Bericht von DR-Agenten hervorrufen. Dies unterstreicht die erhöhten Risiken und die Notwendigkeit einer tiefergehenden Sicherheitsanalyse. Dennoch reichen Jailbreak-Methoden, die für LLMs entwickelt wurden, nicht aus, um solche einzigartigen Risiken aufzudecken, da sie nicht die Recherchefähigkeit von DR-Agenten ins Visier nehmen. Um diese Lücke zu schließen, schlagen wir zwei neuartige Jailbreak-Strategien vor: Plan Injection, bei der bösartige Teilziele in den Plan des Agenten eingeschleust werden, und Intent Hijack, bei der schädliche Anfragen als akademische Forschungsfragen umformuliert werden. Wir haben umfangreiche Experimente mit verschiedenen LLMs und verschiedenen Sicherheitsbenchmarks durchgeführt, einschließlich allgemeiner und biosicherheitsrelevanter verbotener Prompts. Diese Experimente zeigen drei zentrale Erkenntnisse: (1) Die Ausrichtung der LLMs scheitert oft bei DR-Agenten, bei denen schädliche Prompts, die in akademischen Begriffen formuliert sind, die Absicht des Agenten kapern können; (2) Mehrstufige Planung und Ausführung schwächen die Ausrichtung und offenbaren systemische Schwachstellen, die durch Prompt-Level-Sicherheitsvorkehrungen nicht behoben werden können; (3) DR-Agenten umgehen nicht nur Ablehnungen, sondern produzieren im Vergleich zu eigenständigen LLMs auch kohärentere, professionellere und gefährlichere Inhalte. Diese Ergebnisse zeigen eine grundlegende Fehlausrichtung bei DR-Agenten und fordern bessere Ausrichtungstechniken, die speziell auf DR-Agenten zugeschnitten sind. Code und Datensätze sind verfügbar unter https://chenxshuo.github.io/deeper-harm.
English
Deep Research (DR) agents built on Large Language Models (LLMs) can perform
complex, multi-step research by decomposing tasks, retrieving online
information, and synthesizing detailed reports. However, the misuse of LLMs
with such powerful capabilities can lead to even greater risks. This is
especially concerning in high-stakes and knowledge-intensive domains such as
biosecurity, where DR can generate a professional report containing detailed
forbidden knowledge. Unfortunately, we have found such risks in practice:
simply submitting a harmful query, which a standalone LLM directly rejects, can
elicit a detailed and dangerous report from DR agents. This highlights the
elevated risks and underscores the need for a deeper safety analysis. Yet,
jailbreak methods designed for LLMs fall short in exposing such unique risks,
as they do not target the research ability of DR agents. To address this gap,
we propose two novel jailbreak strategies: Plan Injection, which injects
malicious sub-goals into the agent's plan; and Intent Hijack, which reframes
harmful queries as academic research questions. We conducted extensive
experiments across different LLMs and various safety benchmarks, including
general and biosecurity forbidden prompts. These experiments reveal 3 key
findings: (1) Alignment of the LLMs often fail in DR agents, where harmful
prompts framed in academic terms can hijack agent intent; (2) Multi-step
planning and execution weaken the alignment, revealing systemic vulnerabilities
that prompt-level safeguards cannot address; (3) DR agents not only bypass
refusals but also produce more coherent, professional, and dangerous content,
compared with standalone LLMs. These results demonstrate a fundamental
misalignment in DR agents and call for better alignment techniques tailored to
DR agents. Code and datasets are available at
https://chenxshuo.github.io/deeper-harm.