Progent: Controle Programável de Privilégios para Agentes de LLM
Progent: Programmable Privilege Control for LLM Agents
April 16, 2025
Autores: Tianneng Shi, Jingxuan He, Zhun Wang, Linyu Wu, Hongwei Li, Wenbo Guo, Dawn Song
cs.AI
Resumo
Agentes LLM são uma forma emergente de sistemas de IA onde modelos de linguagem de grande escala (LLMs) atuam como o componente central, utilizando um conjunto diversificado de ferramentas para completar tarefas atribuídas pelo usuário. Apesar de seu grande potencial, os agentes LLM apresentam riscos significativos de segurança. Ao interagir com o mundo externo, eles podem encontrar comandos maliciosos de atacantes, levando à execução de ações perigosas. Uma maneira promissora de abordar isso é aplicando o princípio do menor privilégio: permitindo apenas ações essenciais para a conclusão da tarefa enquanto bloqueia as desnecessárias. No entanto, alcançar isso é desafiador, pois requer cobrir diversos cenários de agentes enquanto preserva tanto a segurança quanto a utilidade.
Apresentamos o Progent, o primeiro mecanismo de controle de privilégios para agentes LLM. Em seu núcleo está uma linguagem específica de domínio para expressar de forma flexível políticas de controle de privilégios aplicadas durante a execução do agente. Essas políticas fornecem restrições refinadas sobre chamadas de ferramentas, decidindo quando as chamadas são permitidas e especificando alternativas caso não sejam. Isso permite que desenvolvedores e usuários de agentes criem políticas adequadas para seus casos de uso específicos e as apliquem de forma determinística para garantir a segurança. Graças ao seu design modular, a integração do Progent não altera os componentes internos do agente e requer apenas mudanças mínimas na implementação do agente, aumentando sua praticidade e potencial para adoção generalizada. Para automatizar a escrita de políticas, utilizamos LLMs para gerar políticas com base em consultas do usuário, que são então atualizadas dinamicamente para melhorar a segurança e a utilidade. Nossa avaliação extensiva mostra que ele permite uma segurança robusta enquanto preserva alta utilidade em três cenários ou benchmarks distintos: AgentDojo, ASB e AgentPoison. Além disso, realizamos uma análise detalhada, demonstrando a eficácia de seus componentes principais e a resiliência de sua geração automatizada de políticas contra ataques adaptativos.
English
LLM agents are an emerging form of AI systems where large language models
(LLMs) serve as the central component, utilizing a diverse set of tools to
complete user-assigned tasks. Despite their great potential, LLM agents pose
significant security risks. When interacting with the external world, they may
encounter malicious commands from attackers, leading to the execution of
dangerous actions. A promising way to address this is by enforcing the
principle of least privilege: allowing only essential actions for task
completion while blocking unnecessary ones. However, achieving this is
challenging, as it requires covering diverse agent scenarios while preserving
both security and utility.
We introduce Progent, the first privilege control mechanism for LLM agents.
At its core is a domain-specific language for flexibly expressing privilege
control policies applied during agent execution. These policies provide
fine-grained constraints over tool calls, deciding when tool calls are
permissible and specifying fallbacks if they are not. This enables agent
developers and users to craft suitable policies for their specific use cases
and enforce them deterministically to guarantee security. Thanks to its modular
design, integrating Progent does not alter agent internals and requires only
minimal changes to agent implementation, enhancing its practicality and
potential for widespread adoption. To automate policy writing, we leverage LLMs
to generate policies based on user queries, which are then updated dynamically
for improved security and utility. Our extensive evaluation shows that it
enables strong security while preserving high utility across three distinct
scenarios or benchmarks: AgentDojo, ASB, and AgentPoison. Furthermore, we
perform an in-depth analysis, showcasing the effectiveness of its core
components and the resilience of its automated policy generation against
adaptive attacks.Summary
AI-Generated Summary