Une recherche approfondie entraîne des dommages plus profonds.
Deep Research Brings Deeper Harm
October 13, 2025
papers.authors: Shuo Chen, Zonggen Li, Zhen Han, Bailan He, Tong Liu, Haokun Chen, Georg Groh, Philip Torr, Volker Tresp, Jindong Gu
cs.AI
papers.abstract
Les agents de recherche approfondie (Deep Research, DR) basés sur des modèles de langage de grande taille (Large Language Models, LLMs) sont capables d'effectuer des recherches complexes et multi-étapes en décomposant les tâches, en récupérant des informations en ligne et en synthétisant des rapports détaillés. Cependant, l'utilisation abusive des LLMs dotés de telles capacités puissantes peut entraîner des risques encore plus importants. Cela est particulièrement préoccupant dans des domaines à enjeux élevés et intensifs en connaissances, comme la biosécurité, où les DR peuvent générer un rapport professionnel contenant des connaissances interdites détaillées. Malheureusement, nous avons constaté de tels risques en pratique : simplement soumettre une requête nuisible, qu'un LLM autonome rejette directement, peut susciter un rapport détaillé et dangereux de la part des agents DR. Cela met en évidence les risques accrus et souligne la nécessité d'une analyse de sécurité plus approfondie. Pourtant, les méthodes de contournement conçues pour les LLMs ne parviennent pas à exposer ces risques uniques, car elles ne ciblent pas la capacité de recherche des agents DR. Pour combler cette lacune, nous proposons deux nouvelles stratégies de contournement : l'Injection de Plan, qui insère des sous-objectifs malveillants dans le plan de l'agent ; et le Détournement d'Intention, qui reformule les requêtes nuisibles en questions de recherche académique. Nous avons mené des expériences approfondies sur différents LLMs et divers benchmarks de sécurité, incluant des prompts interdits généraux et spécifiques à la biosécurité. Ces expériences révèlent trois conclusions clés : (1) L'alignement des LLMs échoue souvent dans les agents DR, où des prompts nuisibles formulés en termes académiques peuvent détourner l'intention de l'agent ; (2) La planification et l'exécution multi-étapes affaiblissent l'alignement, révélant des vulnérabilités systémiques que les protections au niveau des prompts ne peuvent pas résoudre ; (3) Les agents DR non seulement contournent les refus, mais produisent également un contenu plus cohérent, professionnel et dangereux, comparé aux LLMs autonomes. Ces résultats démontrent un désalignement fondamental dans les agents DR et appellent à de meilleures techniques d'alignement adaptées aux agents DR. Le code et les jeux de données sont disponibles à l'adresse https://chenxshuo.github.io/deeper-harm.
English
Deep Research (DR) agents built on Large Language Models (LLMs) can perform
complex, multi-step research by decomposing tasks, retrieving online
information, and synthesizing detailed reports. However, the misuse of LLMs
with such powerful capabilities can lead to even greater risks. This is
especially concerning in high-stakes and knowledge-intensive domains such as
biosecurity, where DR can generate a professional report containing detailed
forbidden knowledge. Unfortunately, we have found such risks in practice:
simply submitting a harmful query, which a standalone LLM directly rejects, can
elicit a detailed and dangerous report from DR agents. This highlights the
elevated risks and underscores the need for a deeper safety analysis. Yet,
jailbreak methods designed for LLMs fall short in exposing such unique risks,
as they do not target the research ability of DR agents. To address this gap,
we propose two novel jailbreak strategies: Plan Injection, which injects
malicious sub-goals into the agent's plan; and Intent Hijack, which reframes
harmful queries as academic research questions. We conducted extensive
experiments across different LLMs and various safety benchmarks, including
general and biosecurity forbidden prompts. These experiments reveal 3 key
findings: (1) Alignment of the LLMs often fail in DR agents, where harmful
prompts framed in academic terms can hijack agent intent; (2) Multi-step
planning and execution weaken the alignment, revealing systemic vulnerabilities
that prompt-level safeguards cannot address; (3) DR agents not only bypass
refusals but also produce more coherent, professional, and dangerous content,
compared with standalone LLMs. These results demonstrate a fundamental
misalignment in DR agents and call for better alignment techniques tailored to
DR agents. Code and datasets are available at
https://chenxshuo.github.io/deeper-harm.