Progent : Contrôle programmable des privilèges pour les agents LLM
Progent: Programmable Privilege Control for LLM Agents
April 16, 2025
Auteurs: Tianneng Shi, Jingxuan He, Zhun Wang, Linyu Wu, Hongwei Li, Wenbo Guo, Dawn Song
cs.AI
Résumé
Les agents LLM représentent une forme émergente de systèmes d'IA où les grands modèles de langage (LLM) servent de composant central, utilisant un ensemble diversifié d'outils pour accomplir des tâches assignées par l'utilisateur. Malgré leur grand potentiel, les agents LLM présentent des risques de sécurité significatifs. Lorsqu'ils interagissent avec le monde extérieur, ils peuvent rencontrer des commandes malveillantes provenant d'attaquants, conduisant à l'exécution d'actions dangereuses. Une approche prometteuse pour résoudre ce problème consiste à appliquer le principe du moindre privilège : autoriser uniquement les actions essentielles pour l'accomplissement des tâches tout en bloquant celles qui sont inutiles. Cependant, cela s'avère difficile, car cela nécessite de couvrir divers scénarios d'agents tout en préservant à la fois la sécurité et l'utilité.
Nous présentons Progent, le premier mécanisme de contrôle des privilèges pour les agents LLM. Au cœur de ce système se trouve un langage spécifique permettant d'exprimer de manière flexible des politiques de contrôle des privilèges appliquées lors de l'exécution de l'agent. Ces politiques fournissent des contraintes granulaires sur les appels d'outils, décidant quand ces appels sont autorisés et spécifiant des alternatives s'ils ne le sont pas. Cela permet aux développeurs et utilisateurs d'agents de concevoir des politiques adaptées à leurs cas d'utilisation spécifiques et de les appliquer de manière déterministe pour garantir la sécurité. Grâce à sa conception modulaire, l'intégration de Progent ne modifie pas les internes de l'agent et ne nécessite que des changements minimes dans l'implémentation de l'agent, augmentant ainsi sa praticabilité et son potentiel d'adoption généralisée. Pour automatiser la rédaction des politiques, nous exploitons les LLM pour générer des politiques basées sur les requêtes des utilisateurs, qui sont ensuite mises à jour dynamiquement pour améliorer la sécurité et l'utilité. Notre évaluation approfondie montre qu'il permet une sécurité robuste tout en préservant une utilité élevée dans trois scénarios ou benchmarks distincts : AgentDojo, ASB et AgentPoison. De plus, nous effectuons une analyse approfondie, démontrant l'efficacité de ses composants clés et la résilience de sa génération automatisée de politiques face aux attaques adaptatives.
English
LLM agents are an emerging form of AI systems where large language models
(LLMs) serve as the central component, utilizing a diverse set of tools to
complete user-assigned tasks. Despite their great potential, LLM agents pose
significant security risks. When interacting with the external world, they may
encounter malicious commands from attackers, leading to the execution of
dangerous actions. A promising way to address this is by enforcing the
principle of least privilege: allowing only essential actions for task
completion while blocking unnecessary ones. However, achieving this is
challenging, as it requires covering diverse agent scenarios while preserving
both security and utility.
We introduce Progent, the first privilege control mechanism for LLM agents.
At its core is a domain-specific language for flexibly expressing privilege
control policies applied during agent execution. These policies provide
fine-grained constraints over tool calls, deciding when tool calls are
permissible and specifying fallbacks if they are not. This enables agent
developers and users to craft suitable policies for their specific use cases
and enforce them deterministically to guarantee security. Thanks to its modular
design, integrating Progent does not alter agent internals and requires only
minimal changes to agent implementation, enhancing its practicality and
potential for widespread adoption. To automate policy writing, we leverage LLMs
to generate policies based on user queries, which are then updated dynamically
for improved security and utility. Our extensive evaluation shows that it
enables strong security while preserving high utility across three distinct
scenarios or benchmarks: AgentDojo, ASB, and AgentPoison. Furthermore, we
perform an in-depth analysis, showcasing the effectiveness of its core
components and the resilience of its automated policy generation against
adaptive attacks.Summary
AI-Generated Summary