深い研究はより深い害をもたらす
Deep Research Brings Deeper Harm
October 13, 2025
著者: Shuo Chen, Zonggen Li, Zhen Han, Bailan He, Tong Liu, Haokun Chen, Georg Groh, Philip Torr, Volker Tresp, Jindong Gu
cs.AI
要旨
大規模言語モデル(LLM)を基盤とした深層研究(DR)エージェントは、タスクの分解、オンライン情報の検索、詳細なレポートの合成を通じて、複雑で多段階の研究を実行することが可能である。しかし、このような強力な能力を持つLLMの誤用は、さらなるリスクを引き起こす可能性がある。これは特に、バイオセキュリティのようなハイステークスで知識集約的な領域において懸念される。DRは、詳細な禁止知識を含む専門的なレポートを生成することができる。残念ながら、我々は実際にそのようなリスクを確認した:単に有害なクエリを提出するだけで、スタンドアロンのLLMが直接拒否するようなクエリであっても、DRエージェントから詳細で危険なレポートを引き出すことができる。これはリスクの高まりを示し、より深い安全性分析の必要性を強調している。しかし、LLM向けに設計されたジェイルブレイク手法は、DRエージェントの研究能力をターゲットとしていないため、このような独自のリスクを明らかにするには不十分である。このギャップを埋めるために、我々は2つの新しいジェイルブレイク戦略を提案する:エージェントの計画に悪意のあるサブゴールを注入する「プランインジェクション」と、有害なクエリを学術研究の質問として再構成する「インテントハイジャック」である。我々は、さまざまなLLMと、一般的な禁止プロンプトやバイオセキュリティ禁止プロンプトを含むさまざまな安全性ベンチマークで広範な実験を行った。これらの実験から3つの重要な発見が得られた:(1)LLMのアラインメントはDRエージェントではしばしば失敗し、学術用語で構成された有害なプロンプトがエージェントの意図をハイジャックする可能性がある;(2)多段階の計画と実行はアラインメントを弱め、プロンプトレベルの安全対策では対処できないシステム的な脆弱性を明らかにする;(3)DRエージェントは拒否を回避するだけでなく、スタンドアロンのLLMと比較して、より一貫性があり、専門的で危険なコンテンツを生成する。これらの結果は、DRエージェントにおける根本的なミスアラインメントを示しており、DRエージェントに特化したより良いアラインメント技術の必要性を訴えている。コードとデータセットはhttps://chenxshuo.github.io/deeper-harmで公開されている。
English
Deep Research (DR) agents built on Large Language Models (LLMs) can perform
complex, multi-step research by decomposing tasks, retrieving online
information, and synthesizing detailed reports. However, the misuse of LLMs
with such powerful capabilities can lead to even greater risks. This is
especially concerning in high-stakes and knowledge-intensive domains such as
biosecurity, where DR can generate a professional report containing detailed
forbidden knowledge. Unfortunately, we have found such risks in practice:
simply submitting a harmful query, which a standalone LLM directly rejects, can
elicit a detailed and dangerous report from DR agents. This highlights the
elevated risks and underscores the need for a deeper safety analysis. Yet,
jailbreak methods designed for LLMs fall short in exposing such unique risks,
as they do not target the research ability of DR agents. To address this gap,
we propose two novel jailbreak strategies: Plan Injection, which injects
malicious sub-goals into the agent's plan; and Intent Hijack, which reframes
harmful queries as academic research questions. We conducted extensive
experiments across different LLMs and various safety benchmarks, including
general and biosecurity forbidden prompts. These experiments reveal 3 key
findings: (1) Alignment of the LLMs often fail in DR agents, where harmful
prompts framed in academic terms can hijack agent intent; (2) Multi-step
planning and execution weaken the alignment, revealing systemic vulnerabilities
that prompt-level safeguards cannot address; (3) DR agents not only bypass
refusals but also produce more coherent, professional, and dangerous content,
compared with standalone LLMs. These results demonstrate a fundamental
misalignment in DR agents and call for better alignment techniques tailored to
DR agents. Code and datasets are available at
https://chenxshuo.github.io/deeper-harm.