AgentWatcher : Un moniteur d'injection de prompt basé sur des règles

Résumé

Les grands modèles de langage (LLM) et leurs applications, telles que les agents, sont très vulnérables aux attaques par injection de prompts. Les méthodes de détection d'injection de prompts les plus avancées présentent les limitations suivantes : (1) leur efficacité se dégrade considérablement lorsque la longueur du contexte augmente, et (2) elles manquent de règles explicites définissant ce qui constitue une injection de prompts, rendant les décisions de détection implicites, opaques et difficiles à interpréter. Dans ce travail, nous proposons AgentWatcher pour résoudre ces deux limitations. Pour adresser la première limitation, AgentWatcher attribue la sortie du LLM (par exemple, l'action d'un agent) à un petit ensemble de segments contextuels causalement influents. En concentrant la détection sur un texte relativement court, AgentWatcher peut s'adapter à des contextes longs. Pour adresser la deuxième limitation, nous définissons un ensemble de règles spécifiant ce qui constitue ou non une injection de prompts, et utilisons un LLM de surveillance pour raisonner sur ces règles en se basant sur le texte attribué, rendant les décisions de détection plus explicables. Nous menons une évaluation complète sur des benchmarks d'agents utilisant des outils et des ensembles de données de compréhension de contextes longs. Les résultats expérimentaux démontrent qu'AgentWatcher peut détecter efficacement les injections de prompts et maintenir son utilité en l'absence d'attaques. Le code est disponible à l'adresse https://github.com/wang-yanting/AgentWatcher.

English

Large language models (LLMs) and their applications, such as agents, are highly vulnerable to prompt injection attacks. State-of-the-art prompt injection detection methods have the following limitations: (1) their effectiveness degrades significantly as context length increases, and (2) they lack explicit rules that define what constitutes prompt injection, causing detection decisions to be implicit, opaque, and difficult to reason about. In this work, we propose AgentWatcher to address the above two limitations. To address the first limitation, AgentWatcher attributes the LLM's output (e.g., the action of an agent) to a small set of causally influential context segments. By focusing detection on a relatively short text, AgentWatcher can be scalable to long contexts. To address the second limitation, we define a set of rules specifying what does and does not constitute a prompt injection, and use a monitor LLM to reason over these rules based on the attributed text, making the detection decisions more explainable. We conduct a comprehensive evaluation on tool-use agent benchmarks and long-context understanding datasets. The experimental results demonstrate that AgentWatcher can effectively detect prompt injection and maintain utility without attacks. The code is available at https://github.com/wang-yanting/AgentWatcher.

AgentWatcher : Un moniteur d'injection de prompt basé sur des règles

AgentWatcher: A Rule-based Prompt Injection Monitor

Résumé

Support