Progent: Control Programable de Privilegios para Agentes de LLM

Resumen

Los agentes LLM son una forma emergente de sistemas de IA en los que los modelos de lenguaje grandes (LLMs) actúan como componente central, utilizando un conjunto diverso de herramientas para completar tareas asignadas por el usuario. A pesar de su gran potencial, los agentes LLM presentan riesgos de seguridad significativos. Al interactuar con el mundo externo, pueden encontrarse con comandos maliciosos de atacantes, lo que lleva a la ejecución de acciones peligrosas. Una forma prometedora de abordar esto es aplicando el principio de privilegio mínimo: permitir solo las acciones esenciales para completar la tarea mientras se bloquean las innecesarias. Sin embargo, lograr esto es un desafío, ya que requiere cubrir diversos escenarios de agentes mientras se preserva tanto la seguridad como la utilidad. Presentamos Progent, el primer mecanismo de control de privilegios para agentes LLM. En su núcleo se encuentra un lenguaje específico de dominio para expresar de manera flexible políticas de control de privilegios aplicadas durante la ejecución del agente. Estas políticas proporcionan restricciones detalladas sobre las llamadas a herramientas, decidiendo cuándo son permitidas y especificando alternativas si no lo son. Esto permite a los desarrolladores y usuarios de agentes crear políticas adecuadas para sus casos de uso específicos y aplicarlas de manera determinista para garantizar la seguridad. Gracias a su diseño modular, integrar Progent no altera los componentes internos del agente y requiere solo cambios mínimos en su implementación, mejorando su practicidad y potencial para una adopción generalizada. Para automatizar la escritura de políticas, aprovechamos los LLMs para generar políticas basadas en consultas de usuarios, las cuales se actualizan dinámicamente para mejorar la seguridad y la utilidad. Nuestra evaluación exhaustiva muestra que permite una seguridad sólida mientras mantiene una alta utilidad en tres escenarios o puntos de referencia distintos: AgentDojo, ASB y AgentPoison. Además, realizamos un análisis en profundidad, demostrando la efectividad de sus componentes principales y la resistencia de su generación automática de políticas frente a ataques adaptativos.

English

LLM agents are an emerging form of AI systems where large language models (LLMs) serve as the central component, utilizing a diverse set of tools to complete user-assigned tasks. Despite their great potential, LLM agents pose significant security risks. When interacting with the external world, they may encounter malicious commands from attackers, leading to the execution of dangerous actions. A promising way to address this is by enforcing the principle of least privilege: allowing only essential actions for task completion while blocking unnecessary ones. However, achieving this is challenging, as it requires covering diverse agent scenarios while preserving both security and utility. We introduce Progent, the first privilege control mechanism for LLM agents. At its core is a domain-specific language for flexibly expressing privilege control policies applied during agent execution. These policies provide fine-grained constraints over tool calls, deciding when tool calls are permissible and specifying fallbacks if they are not. This enables agent developers and users to craft suitable policies for their specific use cases and enforce them deterministically to guarantee security. Thanks to its modular design, integrating Progent does not alter agent internals and requires only minimal changes to agent implementation, enhancing its practicality and potential for widespread adoption. To automate policy writing, we leverage LLMs to generate policies based on user queries, which are then updated dynamically for improved security and utility. Our extensive evaluation shows that it enables strong security while preserving high utility across three distinct scenarios or benchmarks: AgentDojo, ASB, and AgentPoison. Furthermore, we perform an in-depth analysis, showcasing the effectiveness of its core components and the resilience of its automated policy generation against adaptive attacks.

Progent: Control Programable de Privilegios para Agentes de LLM

Progent: Programmable Privilege Control for LLM Agents

Resumen

Support