ChatPaper.aiChatPaper

Derrotar las inyecciones de prompts mediante diseño

Defeating Prompt Injections by Design

March 24, 2025
Autores: Edoardo Debenedetti, Ilia Shumailov, Tianqi Fan, Jamie Hayes, Nicholas Carlini, Daniel Fabian, Christoph Kern, Chongyang Shi, Andreas Terzis, Florian Tramèr
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se están implementando cada vez más en sistemas agentes que interactúan con un entorno externo. Sin embargo, los agentes basados en LLMs son vulnerables a ataques de inyección de prompts cuando manejan datos no confiables. En este artículo proponemos CaMeL, una defensa robusta que crea una capa de protección alrededor del LLM, asegurándolo incluso cuando los modelos subyacentes pueden ser susceptibles a ataques. Para funcionar, CaMeL extrae explícitamente los flujos de control y datos de la consulta (confiable); por lo tanto, los datos no confiables recuperados por el LLM nunca pueden afectar el flujo del programa. Para mejorar aún más la seguridad, CaMeL se basa en la noción de capacidad para prevenir la exfiltración de datos privados a través de flujos de datos no autorizados. Demostramos la efectividad de CaMeL al resolver el 67% de las tareas con seguridad comprobable en AgentDojo [NeurIPS 2024], un reciente benchmark de seguridad para agentes.
English
Large Language Models (LLMs) are increasingly deployed in agentic systems that interact with an external environment. However, LLM agents are vulnerable to prompt injection attacks when handling untrusted data. In this paper we propose CaMeL, a robust defense that creates a protective system layer around the LLM, securing it even when underlying models may be susceptible to attacks. To operate, CaMeL explicitly extracts the control and data flows from the (trusted) query; therefore, the untrusted data retrieved by the LLM can never impact the program flow. To further improve security, CaMeL relies on a notion of a capability to prevent the exfiltration of private data over unauthorized data flows. We demonstrate effectiveness of CaMeL by solving 67% of tasks with provable security in AgentDojo [NeurIPS 2024], a recent agentic security benchmark.

Summary

AI-Generated Summary

PDF201March 25, 2025