Progent: Control Programable de Privilegios para Agentes de LLM
Progent: Programmable Privilege Control for LLM Agents
April 16, 2025
Autores: Tianneng Shi, Jingxuan He, Zhun Wang, Linyu Wu, Hongwei Li, Wenbo Guo, Dawn Song
cs.AI
Resumen
Los agentes LLM son una forma emergente de sistemas de IA en los que los modelos de lenguaje grandes (LLMs) actúan como componente central, utilizando un conjunto diverso de herramientas para completar tareas asignadas por el usuario. A pesar de su gran potencial, los agentes LLM presentan riesgos de seguridad significativos. Al interactuar con el mundo externo, pueden encontrarse con comandos maliciosos de atacantes, lo que lleva a la ejecución de acciones peligrosas. Una forma prometedora de abordar esto es aplicando el principio de privilegio mínimo: permitir solo las acciones esenciales para completar la tarea mientras se bloquean las innecesarias. Sin embargo, lograr esto es un desafío, ya que requiere cubrir diversos escenarios de agentes mientras se preserva tanto la seguridad como la utilidad.
Presentamos Progent, el primer mecanismo de control de privilegios para agentes LLM. En su núcleo se encuentra un lenguaje específico de dominio para expresar de manera flexible políticas de control de privilegios aplicadas durante la ejecución del agente. Estas políticas proporcionan restricciones detalladas sobre las llamadas a herramientas, decidiendo cuándo son permitidas y especificando alternativas si no lo son. Esto permite a los desarrolladores y usuarios de agentes crear políticas adecuadas para sus casos de uso específicos y aplicarlas de manera determinista para garantizar la seguridad. Gracias a su diseño modular, integrar Progent no altera los componentes internos del agente y requiere solo cambios mínimos en su implementación, mejorando su practicidad y potencial para una adopción generalizada. Para automatizar la escritura de políticas, aprovechamos los LLMs para generar políticas basadas en consultas de usuarios, las cuales se actualizan dinámicamente para mejorar la seguridad y la utilidad. Nuestra evaluación exhaustiva muestra que permite una seguridad sólida mientras mantiene una alta utilidad en tres escenarios o puntos de referencia distintos: AgentDojo, ASB y AgentPoison. Además, realizamos un análisis en profundidad, demostrando la efectividad de sus componentes principales y la resistencia de su generación automática de políticas frente a ataques adaptativos.
English
LLM agents are an emerging form of AI systems where large language models
(LLMs) serve as the central component, utilizing a diverse set of tools to
complete user-assigned tasks. Despite their great potential, LLM agents pose
significant security risks. When interacting with the external world, they may
encounter malicious commands from attackers, leading to the execution of
dangerous actions. A promising way to address this is by enforcing the
principle of least privilege: allowing only essential actions for task
completion while blocking unnecessary ones. However, achieving this is
challenging, as it requires covering diverse agent scenarios while preserving
both security and utility.
We introduce Progent, the first privilege control mechanism for LLM agents.
At its core is a domain-specific language for flexibly expressing privilege
control policies applied during agent execution. These policies provide
fine-grained constraints over tool calls, deciding when tool calls are
permissible and specifying fallbacks if they are not. This enables agent
developers and users to craft suitable policies for their specific use cases
and enforce them deterministically to guarantee security. Thanks to its modular
design, integrating Progent does not alter agent internals and requires only
minimal changes to agent implementation, enhancing its practicality and
potential for widespread adoption. To automate policy writing, we leverage LLMs
to generate policies based on user queries, which are then updated dynamically
for improved security and utility. Our extensive evaluation shows that it
enables strong security while preserving high utility across three distinct
scenarios or benchmarks: AgentDojo, ASB, and AgentPoison. Furthermore, we
perform an in-depth analysis, showcasing the effectiveness of its core
components and the resilience of its automated policy generation against
adaptive attacks.Summary
AI-Generated Summary