AgentWatcher: Un Monitor de Inyección de Prompts Basado en Reglas

Resumen

Los modelos de lenguaje grandes (LLM) y sus aplicaciones, como los agentes, son altamente vulnerables a los ataques de inyección de prompts. Los métodos de detección de inyección de prompts más avanzados presentan las siguientes limitaciones: (1) su efectividad se degrada significativamente a medida que aumenta la longitud del contexto, y (2) carecen de reglas explícitas que definan qué constituye una inyección de prompt, lo que hace que las decisiones de detección sean implícitas, opacas y difíciles de razonar. En este trabajo, proponemos AgentWatcher para abordar estas dos limitaciones. Para abordar la primera limitación, AgentWatcher atribuye la salida del LLM (por ejemplo, la acción de un agente) a un pequeño conjunto de segmentos de contexto causalmente influyentes. Al centrar la detección en un texto relativamente corto, AgentWatcher puede escalar a contextos largos. Para abordar la segunda limitación, definimos un conjunto de reglas que especifican qué constituye y qué no constituye una inyección de prompt, y utilizamos un LLM monitor para razonar sobre estas reglas basándose en el texto atribuido, haciendo que las decisiones de detección sean más explicables. Realizamos una evaluación exhaustiva en benchmarks de agentes que utilizan herramientas y en conjuntos de datos de comprensión de contexto largo. Los resultados experimentales demuestran que AgentWatcher puede detectar efectivamente la inyección de prompts y mantener la utilidad sin ataques. El código está disponible en https://github.com/wang-yanting/AgentWatcher.

English

Large language models (LLMs) and their applications, such as agents, are highly vulnerable to prompt injection attacks. State-of-the-art prompt injection detection methods have the following limitations: (1) their effectiveness degrades significantly as context length increases, and (2) they lack explicit rules that define what constitutes prompt injection, causing detection decisions to be implicit, opaque, and difficult to reason about. In this work, we propose AgentWatcher to address the above two limitations. To address the first limitation, AgentWatcher attributes the LLM's output (e.g., the action of an agent) to a small set of causally influential context segments. By focusing detection on a relatively short text, AgentWatcher can be scalable to long contexts. To address the second limitation, we define a set of rules specifying what does and does not constitute a prompt injection, and use a monitor LLM to reason over these rules based on the attributed text, making the detection decisions more explainable. We conduct a comprehensive evaluation on tool-use agent benchmarks and long-context understanding datasets. The experimental results demonstrate that AgentWatcher can effectively detect prompt injection and maintain utility without attacks. The code is available at https://github.com/wang-yanting/AgentWatcher.

AgentWatcher: Un Monitor de Inyección de Prompts Basado en Reglas

AgentWatcher: A Rule-based Prompt Injection Monitor

Resumen

Support