Vaincre les injections de prompts par conception

papers.abstract

Les modèles de langage de grande taille (LLM) sont de plus en plus déployés dans des systèmes agentiques interagissant avec un environnement externe. Cependant, les agents basés sur des LLM sont vulnérables aux attaques par injection de prompts lors du traitement de données non fiables. Dans cet article, nous proposons CaMeL, une défense robuste qui crée une couche système protectrice autour du LLM, le sécurisant même lorsque les modèles sous-jacents peuvent être sensibles aux attaques. Pour fonctionner, CaMeL extrait explicitement les flux de contrôle et de données de la requête (fiable) ; ainsi, les données non fiables récupérées par le LLM ne peuvent jamais influencer le flux du programme. Pour renforcer davantage la sécurité, CaMeL s'appuie sur une notion de capacité pour empêcher l'exfiltration de données privées via des flux de données non autorisés. Nous démontrons l'efficacité de CaMeL en résolvant 67 % des tâches avec une sécurité prouvée dans AgentDojo [NeurIPS 2024], un récent benchmark de sécurité pour les systèmes agentiques.

English

Large Language Models (LLMs) are increasingly deployed in agentic systems that interact with an external environment. However, LLM agents are vulnerable to prompt injection attacks when handling untrusted data. In this paper we propose CaMeL, a robust defense that creates a protective system layer around the LLM, securing it even when underlying models may be susceptible to attacks. To operate, CaMeL explicitly extracts the control and data flows from the (trusted) query; therefore, the untrusted data retrieved by the LLM can never impact the program flow. To further improve security, CaMeL relies on a notion of a capability to prevent the exfiltration of private data over unauthorized data flows. We demonstrate effectiveness of CaMeL by solving 67% of tasks with provable security in AgentDojo [NeurIPS 2024], a recent agentic security benchmark.

Vaincre les injections de prompts par conception

Defeating Prompt Injections by Design

papers.abstract

Support