ChatPaper.aiChatPaper

Победа над инъекциями в промпты на уровне проектирования

Defeating Prompt Injections by Design

March 24, 2025
Авторы: Edoardo Debenedetti, Ilia Shumailov, Tianqi Fan, Jamie Hayes, Nicholas Carlini, Daniel Fabian, Christoph Kern, Chongyang Shi, Andreas Terzis, Florian Tramèr
cs.AI

Аннотация

Крупные языковые модели (LLM) всё чаще используются в агентных системах, взаимодействующих с внешней средой. Однако LLM-агенты уязвимы к атакам внедрения промптов при обработке ненадёжных данных. В данной статье мы предлагаем CaMeL — надёжную защиту, которая создаёт защитный системный слой вокруг LLM, обеспечивая её безопасность даже в случаях, когда базовые модели могут быть подвержены атакам. Для работы CaMeL явно извлекает потоки управления и данных из (надёжного) запроса; таким образом, ненадёжные данные, полученные LLM, никогда не могут повлиять на поток выполнения программы. Для дальнейшего повышения безопасности CaMeL использует концепцию возможностей (capability), чтобы предотвратить утечку приватных данных через несанкционированные потоки данных. Мы демонстрируем эффективность CaMeL, успешно решая 67% задач с доказанной безопасностью в AgentDojo [NeurIPS 2024], недавнем бенчмарке для оценки безопасности агентных систем.
English
Large Language Models (LLMs) are increasingly deployed in agentic systems that interact with an external environment. However, LLM agents are vulnerable to prompt injection attacks when handling untrusted data. In this paper we propose CaMeL, a robust defense that creates a protective system layer around the LLM, securing it even when underlying models may be susceptible to attacks. To operate, CaMeL explicitly extracts the control and data flows from the (trusted) query; therefore, the untrusted data retrieved by the LLM can never impact the program flow. To further improve security, CaMeL relies on a notion of a capability to prevent the exfiltration of private data over unauthorized data flows. We demonstrate effectiveness of CaMeL by solving 67% of tasks with provable security in AgentDojo [NeurIPS 2024], a recent agentic security benchmark.

Summary

AI-Generated Summary

PDF201March 25, 2025