Vaincre les injections de prompts par conception
Defeating Prompt Injections by Design
March 24, 2025
Auteurs: Edoardo Debenedetti, Ilia Shumailov, Tianqi Fan, Jamie Hayes, Nicholas Carlini, Daniel Fabian, Christoph Kern, Chongyang Shi, Andreas Terzis, Florian Tramèr
cs.AI
Résumé
Les modèles de langage de grande taille (LLM) sont de plus en plus déployés dans des systèmes agentiques interagissant avec un environnement externe. Cependant, les agents basés sur des LLM sont vulnérables aux attaques par injection de prompts lors du traitement de données non fiables. Dans cet article, nous proposons CaMeL, une défense robuste qui crée une couche système protectrice autour du LLM, le sécurisant même lorsque les modèles sous-jacents peuvent être sensibles aux attaques. Pour fonctionner, CaMeL extrait explicitement les flux de contrôle et de données de la requête (fiable) ; ainsi, les données non fiables récupérées par le LLM ne peuvent jamais influencer le flux du programme. Pour renforcer davantage la sécurité, CaMeL s'appuie sur une notion de capacité pour empêcher l'exfiltration de données privées via des flux de données non autorisés. Nous démontrons l'efficacité de CaMeL en résolvant 67 % des tâches avec une sécurité prouvée dans AgentDojo [NeurIPS 2024], un récent benchmark de sécurité pour les systèmes agentiques.
English
Large Language Models (LLMs) are increasingly deployed in agentic systems
that interact with an external environment. However, LLM agents are vulnerable
to prompt injection attacks when handling untrusted data. In this paper we
propose CaMeL, a robust defense that creates a protective system layer around
the LLM, securing it even when underlying models may be susceptible to attacks.
To operate, CaMeL explicitly extracts the control and data flows from the
(trusted) query; therefore, the untrusted data retrieved by the LLM can never
impact the program flow. To further improve security, CaMeL relies on a notion
of a capability to prevent the exfiltration of private data over unauthorized
data flows. We demonstrate effectiveness of CaMeL by solving 67% of tasks
with provable security in AgentDojo [NeurIPS 2024], a recent agentic security
benchmark.Summary
AI-Generated Summary