ChatPaper.aiChatPaper

Prompt Injecties Verslaan door Ontwerp

Defeating Prompt Injections by Design

March 24, 2025
Auteurs: Edoardo Debenedetti, Ilia Shumailov, Tianqi Fan, Jamie Hayes, Nicholas Carlini, Daniel Fabian, Christoph Kern, Chongyang Shi, Andreas Terzis, Florian Tramèr
cs.AI

Samenvatting

Grote Taalmodellen (LLMs) worden steeds vaker ingezet in agentische systemen die interacteren met een externe omgeving. Echter zijn LLM-agenten kwetsbaar voor prompt-injectieaanvallen bij het verwerken van niet-vertrouwde data. In dit artikel stellen we CaMeL voor, een robuuste verdediging die een beschermende systeemlaag rondom het LLM creëert, waardoor het beveiligd blijft zelfs wanneer onderliggende modellen vatbaar kunnen zijn voor aanvallen. Om te functioneren, extraheert CaMeL expliciet de controle- en dataflows uit de (vertrouwde) query; hierdoor kan de niet-vertrouwde data die door het LLM wordt opgehaald nooit invloed hebben op de programmastroom. Om de beveiliging verder te verbeteren, vertrouwt CaMeL op het concept van een capability om te voorkomen dat privédata worden uitgelekt via niet-geautoriseerde dataflows. We demonstreren de effectiviteit van CaMeL door 67% van de taken op te lossen met aantoonbare beveiliging in AgentDojo [NeurIPS 2024], een recente benchmark voor agentische beveiliging.
English
Large Language Models (LLMs) are increasingly deployed in agentic systems that interact with an external environment. However, LLM agents are vulnerable to prompt injection attacks when handling untrusted data. In this paper we propose CaMeL, a robust defense that creates a protective system layer around the LLM, securing it even when underlying models may be susceptible to attacks. To operate, CaMeL explicitly extracts the control and data flows from the (trusted) query; therefore, the untrusted data retrieved by the LLM can never impact the program flow. To further improve security, CaMeL relies on a notion of a capability to prevent the exfiltration of private data over unauthorized data flows. We demonstrate effectiveness of CaMeL by solving 67% of tasks with provable security in AgentDojo [NeurIPS 2024], a recent agentic security benchmark.

Summary

AI-Generated Summary

PDF201March 25, 2025