AgentWatcher: Ein regelbasierter Monitor für Prompt-Injection-Angriffe

Zusammenfassung

Große Sprachmodelle (LLMs) und ihre Anwendungen, wie Agenten, sind äußerst anfällig für Prompt-Injection-Angriffe. Moderne Methoden zur Erkennung von Prompt-Injection weisen folgende Einschränkungen auf: (1) Ihre Wirksamkeit verschlechtert sich erheblich mit zunehmender Kontextlänge, und (2) ihnen explizite Regeln fehlen, die definieren, was eine Prompt-Injection ausmacht, was dazu führt, dass Erkennungsentscheidungen implizit, undurchsichtig und schwer nachvollziehbar sind. In dieser Arbeit schlagen wir AgentWatcher vor, um die beiden genannten Einschränkungen zu adressieren. Um die erste Einschränkung zu beheben, attributiert AgentWatcher die Ausgabe des LLM (z.B. die Aktion eines Agenten) auf eine kleine Menge kausal einflussreicher Kontextsegmente. Indem sich die Erkennung auf einen relativ kurzen Text konzentriert, kann AgentWatcher auf lange Kontexte skaliert werden. Um die zweite Einschränkung zu adressieren, definieren wir einen Satz von Regeln, die festlegen, was eine Prompt-Injection ausmacht und was nicht, und verwenden ein Monitor-LLM, um über diese Regeln auf Basis des attributierten Textes zu schließen, wodurch die Erkennungsentscheidungen besser erklärbar werden. Wir führen eine umfassende Evaluation auf Benchmarks für werkzeugnutzende Agenten und Datensätzen zum Langzeitkontextverständnis durch. Die experimentellen Ergebnisse zeigen, dass AgentWatcher Prompt-Injection effektiv erkennen und die Nutzbarkeit ohne Angriffe aufrechterhalten kann. Der Code ist verfügbar unter https://github.com/wang-yanting/AgentWatcher.

English

Large language models (LLMs) and their applications, such as agents, are highly vulnerable to prompt injection attacks. State-of-the-art prompt injection detection methods have the following limitations: (1) their effectiveness degrades significantly as context length increases, and (2) they lack explicit rules that define what constitutes prompt injection, causing detection decisions to be implicit, opaque, and difficult to reason about. In this work, we propose AgentWatcher to address the above two limitations. To address the first limitation, AgentWatcher attributes the LLM's output (e.g., the action of an agent) to a small set of causally influential context segments. By focusing detection on a relatively short text, AgentWatcher can be scalable to long contexts. To address the second limitation, we define a set of rules specifying what does and does not constitute a prompt injection, and use a monitor LLM to reason over these rules based on the attributed text, making the detection decisions more explainable. We conduct a comprehensive evaluation on tool-use agent benchmarks and long-context understanding datasets. The experimental results demonstrate that AgentWatcher can effectively detect prompt injection and maintain utility without attacks. The code is available at https://github.com/wang-yanting/AgentWatcher.

AgentWatcher: Ein regelbasierter Monitor für Prompt-Injection-Angriffe

AgentWatcher: A Rule-based Prompt Injection Monitor

Zusammenfassung

Support